英偉達(dá)今日在2023臺北電腦展大會上發(fā)布了多項(xiàng)重磅消息,其中最引人注目的是其Grace Hopper超級芯片已經(jīng)全面投產(chǎn)。這些芯片是英偉達(dá)新推出的DGX GH200人工智能超級計(jì)算平臺和MGX系統(tǒng)的核心組件,它們專為處理海量的生成型人工智能任務(wù)而設(shè)計(jì)。英偉達(dá)還宣布了其新的Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺,專為人工智能服務(wù)器和超級計(jì)算集群而優(yōu)化。
Grace Hopper超級芯片是英偉達(dá)開發(fā)的基于Arm架構(gòu)的CPU+GPU集成方案,它將72核的Grace CPU、Hopper GPU、96GB的HBM3和512 GB的LPDDR5X集成在同一個(gè)封裝中,共有2000億個(gè)晶體管。這種組合提供了CPU和GPU之間驚人的數(shù)據(jù)帶寬,高達(dá)1 TB/s,為某些內(nèi)存受限的工作負(fù)載提供了巨大的優(yōu)勢。
DGX GH200人工智能超級計(jì)算平臺是英偉達(dá)針對最高端的人工智能和高性能計(jì)算工作負(fù)載而設(shè)計(jì)的系統(tǒng)和參考架構(gòu),目前的DGX A100系統(tǒng)只能將八個(gè)A100 GPU聯(lián)合起來作為一個(gè)單元,考慮到生成型人工智能的爆炸式增長,英偉達(dá)的客戶迫切需要更大、更強(qiáng)大的系統(tǒng),DGX GH200就是為了提供最大的吞吐量和可擴(kuò)展性而設(shè)計(jì)的,它通過使用英偉達(dá)的定制NVLink Switch芯片來避免標(biāo)準(zhǔn)集群連接選項(xiàng)(如InfiniBand和以太網(wǎng))的限制。
DGX GH200的細(xì)節(jié)還不太清楚,但已確認(rèn)英偉達(dá)使用了一種新的NVLink Switch系統(tǒng),包含36個(gè)NVLink開關(guān),將256個(gè)GH200 Grace Hopper芯片和144TB的共享內(nèi)存連接成一個(gè)單元,英偉達(dá)CEO黃仁勛表示,GH200芯片為“巨型GPU”。這是英偉達(dá)第一次使用NVLink Switch拓?fù)浣Y(jié)構(gòu)來構(gòu)建整個(gè)超級計(jì)算機(jī)集群,英偉達(dá)稱這種結(jié)構(gòu)提供了比前一代系統(tǒng)高出10倍的GPU到GPU和7倍的CPU到GPU的帶寬。它還設(shè)計(jì)了提供比競爭對手高出5倍的互連功耗效率和高達(dá)128 TB/s的對分帶寬。該系統(tǒng)有150英里(IT之家備注:約241.4公里)的光纖,并且重達(dá)4萬磅,但是呈現(xiàn)出來就像一個(gè)單一的GPU。英偉達(dá)表示,256顆Grace Hopper超級芯片將DGX GH200的“AI性能”提升到了exaflop(一百萬萬億次)。
英偉達(dá)將把DGX GH200的參考藍(lán)圖提供給其主要客戶谷歌、Meta和微軟,并且還將把該系統(tǒng)作為云服務(wù)提供商和超大規(guī)模數(shù)據(jù)中心的參考架構(gòu)設(shè)計(jì)。英偉達(dá)自己也將部署一個(gè)新的英偉達(dá)Helios超級計(jì)算機(jī),由四個(gè)DGX GH200系統(tǒng)組成,用于自家的研發(fā)工作。這四個(gè)系統(tǒng)共有1024個(gè)Grace Hopper芯片,并且用英偉達(dá)的Quantum-2 InfiniBand 400 Gb/s網(wǎng)絡(luò)連接起來。
英偉達(dá)DGX面向最高端的系統(tǒng),HGX系統(tǒng)面向超大規(guī)模數(shù)據(jù)中心,而新的MGX系統(tǒng)則處于這兩者之間,而且DGX和HGX將與新的MGX系統(tǒng)共存。英偉達(dá)的OEM合作伙伴在設(shè)計(jì)人工智能中心的服務(wù)器時(shí)面臨著新的挑戰(zhàn),會降低設(shè)計(jì)和部署的速度。英偉達(dá)的新MGX參考架構(gòu)旨在加快這一過程,提供了100多種參考設(shè)計(jì)。
MGX系統(tǒng)由模塊化設(shè)計(jì)組成,涵蓋了英偉達(dá)的CPU和GPU、DPU和網(wǎng)絡(luò)系統(tǒng)的各個(gè)方面,但也包括了基于常見的x86和Arm處理器的設(shè)計(jì)。英偉達(dá)還提供了空冷和液冷的設(shè)計(jì)選項(xiàng),以適應(yīng)各種應(yīng)用場景。華碩、技嘉、永擎和和碩都將使用MGX參考架構(gòu)來開發(fā)將在今年晚些時(shí)候到明年初推出的系統(tǒng)。
至于新的Spectrum-X網(wǎng)絡(luò)平臺,英偉達(dá)稱它為“專為人工智能而打造的高性能以太網(wǎng)”網(wǎng)絡(luò)平臺。Spectrum-X設(shè)計(jì)采用了英偉達(dá)的51 Tb/s Spectrum-4 400 GbE以太網(wǎng)交換機(jī)和英偉達(dá)Bulefield-3 DPU,搭配軟件和SDK,使開發(fā)人員能夠根據(jù)AI工作負(fù)載的獨(dú)特需求調(diào)整系統(tǒng)。
與其他基于以太網(wǎng)的系統(tǒng)相比,英偉達(dá)稱Spectrum-X是無損的,從而提供了更好的QoS和延遲。它還具有新的自適應(yīng)路由技術(shù),這在多租戶環(huán)境中特別有用。