在AI計(jì)算機(jī)訓(xùn)練與推理領(lǐng)域,存在著這樣一種理念:如果計(jì)算需求很大,那么為其提供動(dòng)力所需的能量也將很大。這種理念也被該領(lǐng)域廣泛接受。那么有沒(méi)有可能開(kāi)發(fā)出一種既可以顯著提升計(jì)算能力又無(wú)需消耗過(guò)多能量的方法呢?IBM在頂會(huì)ISSCC上介紹了一種7nm訓(xùn)練推理節(jié)能芯片。
自動(dòng)駕駛汽車、文本轉(zhuǎn)語(yǔ)音和送貨無(wú)人機(jī),這些都是人工智能的典型應(yīng)用。為了不斷推動(dòng) AI 淘金熱,人們一直致力于改善 AI 硬件技術(shù)的核心,即賦能深度學(xué)習(xí)的數(shù)字 AI 內(nèi)核,它是人工智能的關(guān)鍵推動(dòng)力。
在該領(lǐng)域的深入探索中,IBM Research 通過(guò)材料、設(shè)備、芯片架構(gòu)和整體軟件堆棧方面的創(chuàng)新,在適應(yīng) AI 系統(tǒng)的負(fù)載復(fù)雜性以及簡(jiǎn)化和加速性能方面取得了長(zhǎng)足進(jìn)步,從而推動(dòng)具有尖端性能和無(wú)可比擬能效的下一代 AI 計(jì)算機(jī)系統(tǒng)的開(kāi)發(fā)。
近日,在 2021 年國(guó)際固態(tài)電路虛擬會(huì)議(ISSCC)上發(fā)表的一篇新論文《A 7nm 4-Core AI Chip with 25.6TFLOPS Hybrid FP8 Training, 102.4TOPS INT4 Inference and Workload-Aware Throttling》中,IBM 團(tuán)隊(duì)詳細(xì)介紹了全球首個(gè)采用 7nm 技術(shù)進(jìn)行低精度訓(xùn)練與推斷的節(jié)能 AI 芯片。通過(guò)其新穎的設(shè)計(jì),該 AI 硬件加速器芯片支持多種模型類型,同時(shí)在所有模型類型上均實(shí)現(xiàn)了領(lǐng)先的能效。
IBM 表示,通過(guò)令訓(xùn)練更靠近邊緣以及使數(shù)據(jù)更靠近來(lái)源,這一芯片技術(shù)可以擴(kuò)展并用于多種商業(yè)應(yīng)用,從云上的大規(guī)模模型訓(xùn)練到安全隱私服務(wù)。此外,這種高效節(jié)能的 AI 硬件加速器可以顯著提升計(jì)算能力,包括混合云環(huán)境中的計(jì)算能力,并且無(wú)需大量的能源。
AI 模型的復(fù)雜性和適應(yīng)性正在迅速擴(kuò)展,現(xiàn)已用于藥物發(fā)現(xiàn)、遺留 IT 應(yīng)用的現(xiàn)代化以及為新應(yīng)用編寫(xiě)代碼等。但是,AI 模型復(fù)雜性的快速演化也增加了該技術(shù)的能耗,并且面臨的一個(gè)主要問(wèn)題是如何創(chuàng)建復(fù)雜的 AI 模型而不增加碳排放量。從歷史上看,該領(lǐng)域已經(jīng)接受了這樣一種理念,即如果計(jì)算需求很大,那么為其提供動(dòng)力所需的能源也將很大。
IBM 想要改變這種理念,開(kāi)發(fā)出一種既可以顯著提升計(jì)算能力又無(wú)需消耗過(guò)多能量的全新節(jié)能 AI 硬件加速器。
如何實(shí)現(xiàn)
這篇 ISSCC 論文聚焦如何創(chuàng)建針對(duì)所有不同 AI 模型類型的低精度訓(xùn)練與推斷進(jìn)行高度優(yōu)化的芯片,且該芯片在應(yīng)用層面上對(duì)質(zhì)量不造成損害。
IBM 展示了該新芯片的多種新特性:
IBM 表示這是首個(gè)集成了超低精度混合 FP8 (HFP8) 形式的硅芯片,可以 SOTA 硅技術(shù)節(jié)點(diǎn)(7 nm EUV-based 芯片)訓(xùn)練深度學(xué)習(xí)模型。在所有不同精度條件下,其原始能效是最優(yōu)的。下圖 2 展示了 IBM 芯片性能與能效超過(guò)其他專用的推斷和訓(xùn)練芯片。
從上圖中,我們可以看到 IBM 將該 7nm 芯片與多款芯片做了對(duì)比,包括阿里巴巴 12nm 的芯片以及英偉達(dá)的 A100。
但這并不是全部。它還是將電源管理整合到 AI 硬件加速器中的第一批芯片之一。該研究表明,通過(guò)放慢高功耗計(jì)算階段的速度,可以在芯片的總功耗預(yù)算內(nèi)最大化其性能。
最后,芯片除具有出色的峰值性能外,還具有可轉(zhuǎn)化為實(shí)際應(yīng)用性能的高持續(xù)利用率,這也是該芯片提高能效的關(guān)鍵部分。作者稱,與遠(yuǎn)低于 30%的典型 GPU 利用率相比,該芯片可實(shí)現(xiàn) 80%以上的訓(xùn)練利用率和 60%以上的推斷利用率。
應(yīng)用前景廣泛
IBM 研究員表示,這一新的 AI 核與芯片可用于多種跨行業(yè)的云與邊緣應(yīng)用。例如,相對(duì)于當(dāng)前行業(yè)中使用的 16 位(bit)和 32 位格式,該芯片可用于 8 位視覺(jué)、語(yǔ)音和自然語(yǔ)言處理的大規(guī)模深度學(xué)習(xí)模型云訓(xùn)練。它們還可用于語(yǔ)音到文本 AI 服務(wù)、文本到語(yǔ)音 AI 服務(wù)、NLP 服務(wù)、金融交易欺詐檢測(cè)等云推斷應(yīng)用程序。
自動(dòng)駕駛汽車、安全攝像頭和移動(dòng)電話也可以從中受益,該芯片可以方便地在邊緣設(shè)備上進(jìn)行聯(lián)邦學(xué)習(xí),以實(shí)現(xiàn)定制化,保護(hù)客戶的隱私、安全性和合規(guī)性。
作者希望通過(guò)這項(xiàng)工作建立一種全新的方式,來(lái)創(chuàng)建和部署可擴(kuò)展性能并降低功耗的 AI 模型。