8月30日,中國(guó)移動(dòng)建成運(yùn)營(yíng)商最大單集群智算中心——中國(guó)移動(dòng)智算中心(哈爾濱),并正式投產(chǎn)使用,將為全國(guó)的科技創(chuàng)新與產(chǎn)業(yè)升級(jí)帶來強(qiáng)大助力。
該智算中心部署超1.8萬張AI加速卡,AI芯片國(guó)產(chǎn)化率達(dá)100%,可提供6.9EFLOPS(每秒690億億次浮點(diǎn)運(yùn)算)智能算力。首次探索通過國(guó)產(chǎn)網(wǎng)絡(luò)設(shè)備將所有AI加速卡打造成1個(gè)集群,實(shí)現(xiàn)超大規(guī)模算力資源聚合,支持全部1.8萬張卡并行訓(xùn)練、自動(dòng)續(xù)訓(xùn),可為萬億級(jí)模型訓(xùn)練提供高效、穩(wěn)定的算力底座。
技術(shù)架構(gòu)上,中國(guó)移動(dòng)智算中心(哈爾濱)采用參數(shù)面與數(shù)據(jù)面獨(dú)立RDMA組網(wǎng),參數(shù)面帶寬可達(dá)1.6Tbps,數(shù)據(jù)面吞吐可達(dá)15TB/s,能夠?yàn)榇笠?guī)模并行計(jì)算和復(fù)雜模型訓(xùn)練提供堅(jiān)實(shí)保障。此外,中心還實(shí)現(xiàn)了1.8萬卡超大規(guī)模云化納管、萬卡并行訓(xùn)練以及分鐘級(jí)斷點(diǎn)自動(dòng)續(xù)訓(xùn),極大提高了大模型訓(xùn)練的效率與穩(wěn)定性。
值得一提的是,為保障大模型訓(xùn)練高效與穩(wěn)定,智算中心上線了由移動(dòng)云自研的智算管控平臺(tái)。該平臺(tái)實(shí)現(xiàn)了對(duì)主流AI卡多樣化異構(gòu)算力的統(tǒng)一納管,支持大規(guī)模集群算、存、網(wǎng)等全量軟硬件的一站式健康檢查,實(shí)現(xiàn)AI任務(wù)全生命周期的精準(zhǔn)管控。在集群出現(xiàn)故障時(shí),該平臺(tái)能夠迅速定位并恢復(fù),為智算中心的穩(wěn)定運(yùn)行提供了堅(jiān)實(shí)的技術(shù)支撐。
中國(guó)移動(dòng)智算中心(哈爾濱)的投產(chǎn)顯著增強(qiáng)了移動(dòng)云國(guó)產(chǎn)化算力集群的交付與調(diào)優(yōu)實(shí)力。移動(dòng)云可提供公、私、邊多場(chǎng)景資源池建設(shè)服務(wù),覆蓋硬件集成、軟件部署、性能調(diào)優(yōu)及驗(yàn)收測(cè)試等關(guān)鍵環(huán)節(jié)。同時(shí),移動(dòng)云已完成了包括LLaMA、GPT、GLM在內(nèi)的數(shù)十款主流模型的云端遷移,具備大模型預(yù)訓(xùn)練-遷移-精調(diào)微調(diào)-推理全流程調(diào)優(yōu)能力,可以為國(guó)內(nèi)企業(yè)提供強(qiáng)有力的技術(shù)支撐與定制化解決方案,助力AI技術(shù)快速應(yīng)用與產(chǎn)業(yè)升級(jí)。
未來,移動(dòng)云將繼續(xù)勇?lián)鷶?shù)字中國(guó)建設(shè)主力軍,推動(dòng)數(shù)字化基礎(chǔ)設(shè)施建設(shè),在數(shù)字經(jīng)濟(jì)的浪潮中乘風(fēng)破浪、勇立潮頭。