云端智能芯片是面向人工智能領域大規(guī)模數(shù)據(jù)中心和服務器提供的核心芯片。5月3日,中國科學院發(fā)布國內(nèi)首款云端人工智能芯片,理論峰值速度達每秒128萬億次定點運算,達到世界先進水平,將廣泛應用于智能手機、智能音箱、智能攝像頭、智能駕駛等不同領域。
智能芯片是前沿科技和社會關注的熱點,也是人工智能技術發(fā)展過程中不可逾越的關鍵環(huán)節(jié)。換句話說就是,不論有怎樣領先的算法,要想最終應用,都必須通過芯片實現(xiàn)。
5月3日,全球新一代人工智能芯片發(fā)布會在上海召開,中科院旗下的寒武紀科技公司發(fā)布了我國自主研發(fā)的Cambricon MLU100云端智能芯片和板卡產(chǎn)品、寒武紀1M終端智能處理器IP產(chǎn)品。這款國內(nèi)首個云端人工智能芯片,理論峰值速度達每秒128萬億次定點運算,達到世界先進水平。
智能芯片實現(xiàn)新突破
作為此次發(fā)布會焦點,首次正式亮相的Cambricon MLU100云端智能芯片,是我國首款云端AI芯片。
據(jù)中科院計算所研究員、寒武紀公司創(chuàng)始人兼CEO陳天石介紹,云端智能芯片是面向人工智能領域大規(guī)模數(shù)據(jù)中心和服務器提供的核心芯片。云端的智能芯片規(guī)模更大,結(jié)構(gòu)更加復雜,它和終端芯片的最大區(qū)別就在于其運算能力更強。
MLU100云端智能芯片采用寒武紀最新的MLUv01架構(gòu)和TSMC 16nm的先進工藝,可工作在平衡模式(1GHz主頻)和高性能模式(1.3GHz主頻)下,平衡模式下的等效理論峰值速度達每秒128萬億次定點運算,高性能模式下的等效理論峰值速度更可達每秒166.4萬億次定點運算,但典型板級功耗僅為80瓦,峰值功耗不超過110瓦。
“3年來,我們從研發(fā)兩顆測試芯片,一直到現(xiàn)在云端智能芯片的最終亮相,我們時刻準備著‘由端入云’。”陳天石說,MLU100基于軟硬件協(xié)同提升內(nèi)存帶寬利用率,不管是從性能比,還是功耗比來說,寒武紀都將樹立智能芯片領域的新標桿。
與寒武紀系列終端處理器一樣,MLU100云端芯片仍然延續(xù)了寒武紀產(chǎn)品一貫出色的通用性,可支持千萬量級用戶的大規(guī)模商用檢驗,搭載各類深度學習和經(jīng)典機器學習算法,充分滿足視覺、語音、自然語言處理、經(jīng)典數(shù)據(jù)挖掘等領域復雜場景下(如大數(shù)據(jù)量、多任務、多模態(tài)、低延時、高通量)的云端智能處理需求。
此外,這次最新發(fā)布的寒武紀1M處理器是公司的第三代IP產(chǎn)品,它延續(xù)了前兩代產(chǎn)品(寒武紀1H/1A)卓越的完備性,單個處理器核即可支持多樣化深度學習模型,并更進一步支持經(jīng)典機器學習算法和本地訓練,為視覺、語音、自然語言處理以及各類經(jīng)典的機器學習任務提供了靈活高效的計算平臺,將廣泛應用于智能手機、智能音箱、智能攝像頭、智能駕駛等不同領域。
“由端入云”協(xié)同發(fā)展
寒武紀科技公司脫胎于中科院計算所,于2016年發(fā)布了全球首款商用深度學習專用處理器——寒武紀1A處理器。它的橫空出世打破了多項紀錄,并入選了第三屆世界互聯(lián)網(wǎng)大會評選的十五項“世界互聯(lián)網(wǎng)領先科技成果”。目前,寒武紀處理器也已應用于某知名國產(chǎn)手機新近發(fā)布的旗艦機型,實現(xiàn)了集成應用。
近年來,人工智能產(chǎn)業(yè)迅猛發(fā)展,推動了芯片市場規(guī)模的快速增長,也推動了人工智能計算從終端向云端的延伸。陳天石表示,寒武紀在技術上貫徹“端云協(xié)作”的理念,這次發(fā)布的MLU100云端芯片,不僅可獨立完成各種復雜的云端智能任務,更可以與寒武紀1A/1H/1M系列終端處理器完美適配,讓終端和云端在統(tǒng)一的智能生態(tài)基礎上協(xié)同完成復雜的智能處理任務。
陳天石指出,端側(cè)智能處理可以最快速響應用戶需求,以非常低小的功耗、成本和延遲,幫助用戶理解圖像、視頻、語音和文本。同時,云側(cè)的智能處理則可以把多個端的信息匯聚在一起。由于終端的數(shù)據(jù)量有限,只能根據(jù)單個用戶的數(shù)據(jù)對機器學習模型進行微調(diào)。因此,端云協(xié)同的智能處理模式將在數(shù)據(jù)方面發(fā)揮巨大優(yōu)勢,利用海量數(shù)據(jù),訓練出強大的人工智能模型。
“過去大部分芯片廠商都主攻端,例如芯片巨頭ARM公司,或是主攻云,例如英特爾公司。兩者兼顧的卻很少,因為端云的任務生態(tài)區(qū)別較大。但是智能時代這個局面會被全面打破。因為端和云的任務是一體的,編程和使用的生態(tài)也是一致的。作為一個通用機器學習芯片廠商,寒武紀就是要端云結(jié)合,共同推動智能芯片生態(tài)的發(fā)展。”陳天石說。
中科院上海分院副院長、中科院院士張旭表示,從過去在手機等終端上應用的智能芯片,到今天更高一層的云端人工智能芯片,它可以使人們在手機等終端的應用上升為未來在云端等領域更加廣闊的應用,所以這是一個開拓性的突破。
當前,眾多科技公司紛紛加大對人工智能芯片的研發(fā),包括智能手機、無人駕駛、云計算等各領域巨頭。根據(jù)相關機構(gòu)預測,到2021年,人工智能芯片市場規(guī)模將超過110億美元,而2016年這一數(shù)字僅為36億美元。
“寒武紀創(chuàng)立的初衷就是要讓全世界都能用上智能處理器。”陳天石告訴記者,寒武紀將秉承學術界開放、協(xié)作的精神,以處理器IP授權的形式與全世界同行共享寒武紀最新的技術成果,使全球客戶能夠快速設計和生產(chǎn)具備人工智能處理能力的芯片產(chǎn)品。
共建人工智能生態(tài)鏈
發(fā)布會上,寒武紀部分產(chǎn)業(yè)伙伴公開展示了基于寒武紀芯片的應用方案。聯(lián)想集團高級副總裁童夫堯在發(fā)布會上推出了基于寒武紀MLU100智能處理卡的ThinkSystem SR650,打破了37項服務器基準測試的世界紀錄。
“在新產(chǎn)品上,我們搭載了寒武紀的芯片,有助于各行各業(yè)在人工智能、VR、高性能計算等方面的研發(fā)和行業(yè)解決方案的落地。”童夫堯說。
不僅如此,芯片成果還將運用于智能語音領域。“一小時的語音數(shù)據(jù)在一個傳統(tǒng)處理器上進行智能應用處理,需要一萬小時才能完成,科大訊飛一直在跟蹤人工智能專用芯片的前沿進展。”上海訊飛總裁程甦介紹,寒武紀的智能處理器在語音智能處理上交出了優(yōu)異的答卷,能耗效率領先競爭對手的云端GPU方案達5倍以上。它的強大處理能力使得手機本地端可以處理更加復雜的機器學習算法,使得語音本地識別準確率相對于傳統(tǒng)處理器領先了9.8%,顯著提高了用戶體驗。
中科曙光高級副總裁任京旸在發(fā)布會上同步推出了基于Cambricon MLU100智能處理卡的服務器產(chǎn)品系列“PHANERON”,它的性能更為強勁,可以支持2—10塊寒武紀MLU處理卡,靈活應對不同的智能應用負載。以升級版的PHANERON-10為例,單臺服務器可集成10片寒武紀人工智能處理單元,為人工智能訓練應用提供832T半精度浮點運算能力,為推理應用提供1.66P整數(shù)運算能力,典型場景下的能效提升30倍以上。
“下一步,曙光與寒武紀之間的合作將不僅僅局限于整機領域,會從頂端科研一直延伸到低端應用,合力打造下游應用產(chǎn)業(yè),共建人工智能生態(tài)鏈。”任京旸透露,中科曙光還將發(fā)布人工智能管理平臺SothisAI,與寒武紀的芯片及開發(fā)環(huán)境實現(xiàn)無縫對接和深度融合。