在12月初舉(ju) 辦的NeurIPS會(hui) 議上,IBM展示了一款新型人工智能芯片。
IBM的研究人員聲稱,他們(men) 已開發出一個(ge) 更加高效的模型用於(yu) 處理神經網絡,該模型隻需使用8位浮點精度進行訓練,推理(inferencing)時更是僅(jin) 需4位浮點精度。該研究的成果已於(yu) 2018年12月初在國際電子元件會(hui) 議(International Electron Devices Meeting,IEDM)和神經信息處理係統大會(hui) (Conference on NeuralInformation Processing Systems,NeurIPS)上發布。
簡而言之,IBM展示了專(zhuan) 用於(yu) 減少精度處理單元的定製硬件,以及能夠利用該硬件進行深度神經網絡(DNN)訓練和推理的新算法。其主要目標在於(yu) 提高硬件的能效,使其可以應用於(yu) 範圍更廣泛的人工智能解決(jue) 方案。
下一代人工智能應用程序需要更快的響應時間、更大的人工智能工作負載以及來自眾(zhong) 多數據流的多模式數據。為(wei) 了釋放人工智能的全部潛能,我們(men) 重新設計了將人工智能考慮在內(nei) 的硬件:從(cong) 加速器到用於(yu) 人工智能工作負載的特定用途硬件(例如我們(men) 的新芯片),以及最終用於(yu) 人工智能的量子計算技術。使用新的硬件解決(jue) 方案擴展人工智能是IBM研究院(IBM Research)更廣泛努力的一部分,以期從(cong) 範圍狹窄的人工智能(通常用於(yu) 處理具體(ti) 的、界限清楚的任務)轉向範圍廣泛的人工智能(跨越各個(ge) 學科,可幫助人類解決(jue) 最迫切的問題)。
具體(ti) 而言,IBM研究院提出了可提供8位浮點(FP8)精度用於(yu) 訓練神經網絡的硬件。8位浮點精度是16位浮點精度(FP16)的一半,而16位浮點精度自2015年以來一直是深度神經網絡工作的事實標準。(提議的硬件將依靠FP16來累積點積,而不是現在使用的FP32。)借助於(yu) 稍後介紹的新算法技術,IBM的研究人員表示,他們(men) 可以跨各種深度學習(xi) 模型保持精確度。事實上,他們(men) 記錄在案了使用FP8精度基於(yu) 圖像、語音和文本數據集對深度神經網絡所進行的訓練,並實現了與(yu) 基於(yu) FP32的訓練相當的模型精確度。
降低精度的模型基於(yu) 三項軟件創新:一種新的FP8格式,讓用於(yu) 深度神經網絡訓練的矩陣乘法和卷積計算可在不損失精確度的情況下工作;一種“基於(yu) 組塊的計算”技術,使得隻需使用FP8乘法和FP16加法即可處理神經網絡成為(wei) 現實;並且在加權更新過程中使用浮點隨機舍入,允許以16位浮點精度(而不是32位浮點精度)計算這些更新。
IBM展示的硬件是一款基於(yu) “新式數據流核心”的14納米處理器。該處理器由降低精度的數據流引擎、16位浮點精度組塊加法引擎和核心上內(nei) 存及內(nei) 存訪問引擎組成。研究人員聲稱,與(yu) 現在的平台相比,這種設計有可能使訓練速度提高2到4倍。其中部分改進是用於(yu) 訓練模型的位寬減少了2倍的結果,但其餘(yu) 改進則是因為(wei) 用於(yu) 利用降低的精度的軟件技術。
也許更重要的是,IBM研究院表示,由於(yu) 其FP8/FP16模型相較標準FP16/FP32模型而言所需的內(nei) 存帶寬和存儲(chu) 空間更少,並且因為(wei) 其硬件是為(wei) 處理這些神經網絡而定製的,能效可提高2-4倍以上。研究人員表示,這將使深度神經網絡模型能夠在一些邊緣設備上進行訓練,而不僅(jin) 僅(jin) 是在數據中心服務器上進行訓練。
研究人員還發表了一篇關(guan) 於(yu) 在多個(ge) 深度學習(xi) 應用程序中使用4位浮點精度推理,而同樣不損失精確度的論文(目前,大部分推理基於(yu) 使用8位浮點精度或更多位浮點精度的計算)。此處的意義(yi) 在於(yu) ,位寬的減小將再次提高吞吐量和能效。對降低精度的需求也使得基於(yu) 在訓練期間優(you) 化的位精度構建用於(yu) 訓練和推理的統一架構更加自然。根據研究人員的說法,由於(yu) 減少了專(zhuan) 用於(yu) 計算的處理器麵積並擁有在內(nei) 存中保留模型和激活數據的能力,此類硬件可以帶來推理性能的超線性提升。
相關(guan) 研究領域需要與(yu) 將這種降低精度的模型應用於(yu) 模擬芯片相關(guan) ,模擬芯片天生不如數字芯片精確,但能效卻高得多。IBM的研究人員開發了一種使用相變存儲(chu) 器(PCM)的8位浮點精度模擬加速器,它可以充當用於(yu) 處理神經網絡的計算基板和存儲(chu) 介質。根據2018年早些時候發布的工作成果,IBM研究院已經實施了該技術的創新加成,稱為(wei) 預測PCM(Projected PCM,Proj-PCM),它可以減少PCM硬件的一些令人煩惱的不精確性。研究團隊認為(wei) ,該設計可為(wei) 物聯網(IoT)和邊緣設備等功率受限環境中的人工智能訓練和推理提供高性能水平。
盡管所有這些仍處於(yu) 研究階段,但IBM顯然對構建自己的人工智能芯片和加速器並將其交付到客戶手中感興(xing) 趣。他們(men) 計劃如何將該技術商業(ye) 化仍然有待觀察。無論如何,如果降低精度的訓練和推理流行起來,IBM將麵臨(lin) 很多競爭(zheng) 。這些競爭(zheng) 不僅(jin) 僅(jin) 來自將相應調整自己的處理器平台的英特爾和英偉(wei) 達等行業(ye) 巨頭,它們(men) 還來自似乎每天都在湧現的人工智能芯片初創公司。在一個(ge) 如此飛速變化的環境中,成功將青睞於(yu) 最靈活變通的參與(yu) 者。