" 打開水龍頭前,我們不需要知道水是從哪條河里來的。同理,未來我們用各種 AI 應用時,也不會知道它調用了哪些基座模型,用到了哪種加速卡的算力——這就是最好的 AI Native 基礎設施。"
這樣的 AI Native 基礎設施,需要大家共同構建。近日,在 2024 年世界人工智能大會 AI 基礎設施論壇上,無問芯穹聯(lián)合創(chuàng)始人兼 CEO 夏立雪發(fā)布了全球首個千卡規(guī)模異構芯片混訓平臺,千卡異構混合訓練集群算力利用率最高達到 97.6%。
同時,夏立雪宣布無問芯穹 Infini-AI 云平臺已集成大模型異構千卡混訓能力,是全球首個可進行單任務千卡規(guī)模異構芯片混合訓練的平臺,具備萬卡擴展性,支持包括 AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA 六種異構芯片在內的大模型混合訓練。
從 7 月起,通過試訓申請的用戶,可以在 Infini-AI 上一鍵發(fā)起 700 億參數(shù)規(guī)模的大模型訓練。
就在 4 個月前,無問芯穹 Infini-AI 大模型開發(fā)與服務云平臺宣布首次公測,智譜 AI、月之暗面、生數(shù)科技等大模型公司客戶已在 Infini-AI 上穩(wěn)定使用異構算力,還有 20 余家 AI Native 應用創(chuàng)業(yè)公司在 Infini-AI 上持續(xù)調用各種預置模型 API,使用無問芯穹提供的工具鏈開發(fā)自身業(yè)務模型。
此次發(fā)布全球首個可進行千卡規(guī)模異構芯片混訓的平臺,不僅是無問芯穹在異構計算優(yōu)化與集群系統(tǒng)設計方面的技術實力體現(xiàn),同時也是無問芯穹秉承 "MxN" 中間層生態(tài)理念的重要成果。
無問芯穹率先構建了 "MxN" 中間層的生態(tài)格局,實現(xiàn)多種大模型算法在多元芯片上的高效、統(tǒng)一部署。
Infini-AI 平臺已支持 Qwen2、GLM4、Llama 3、Gemma、Yi、Baichuan2、ChatGLM3 系列等共 30 多個模型和 AMD、華為昇騰、壁仞、寒武紀、燧原、海光、天數(shù)智芯、沐曦、摩爾線程、NVIDIA 等 10 余種計算卡,既支持單一算法與芯片的一對一連接,又支持多種模型和多種芯片的自由搭配和組合。
據(jù)夏立雪透露,預計到今年年底,無問芯穹會完整實現(xiàn)模型到芯片的 M×N 自動路由。
萬卡集群是大模型兵家必爭之地,國內面臨生態(tài)打通難題
無問芯穹聯(lián)合創(chuàng)始人兼 CEO 夏立雪認為,算力是 AI 發(fā)展的前哨和基石。GPT-4 之后出現(xiàn)的模型規(guī)模沒有進一步指數(shù)增長,背后支撐算法所需的算力遇到了瓶頸,目前無人能實現(xiàn)更大規(guī)模、更大單個模型計算量的大系統(tǒng),這使得模型發(fā)展進入了放緩和停滯的狀態(tài),或者說,支撐模型能力邁向下一代的算力系統(tǒng)還需要研發(fā)和構建。
大模型在 Scaling Law 的作用下進行全球范圍內算力的競賽。有報道稱,微軟和 OpenAI 在構建一個超過 1000 億美金的大算力項目。相比其他很多技巧來說,這種簡單粗暴的規(guī)模擴張,帶來了最切實際的模型智能性的回報。谷歌、OpenAI 以及國內的大廠和三大運營商都在構建萬卡規(guī)模的大集群。
在真正的可持續(xù)迭代的、大的、穩(wěn)定的系統(tǒng)中,Scaling Law 有獨特的優(yōu)點,沒有那么多豐富的技巧,更便于進行維護和擴展。對于一個真正長期要運行的系統(tǒng)來說,可擴展是非常重要的屬性,可擴展的系統(tǒng)才是好系統(tǒng)。
IDC 圖表顯示,全球范圍內未來 AI 推演和訓練的算力需求呈高速發(fā)展的狀態(tài),訓練和推理均需要強大的計算資源支撐。這個龐大市場背后的國內外生態(tài)差異很大。國外生態(tài)模型層和芯片層的格局相對集中,中國生態(tài)是相對分散和生機勃勃的狀態(tài),模型層、芯片層都在競向擴展算力市場,面臨很多生態(tài)打通的關鍵問題。
萬卡集群是大模型的兵家必爭之地。夏立雪分享說,現(xiàn)在國內有 100 多個千卡集群在建設或計劃建設,其中大部分的集群都是異構算力,很多集群在使用不同的芯片服務和從事 AI 生產。原因包括過度依賴單一硬件平臺可能產生供應鏈風險、國產芯片的性能快速提升為集群方提供了多種選擇等。
然而,大量的異構芯片也形成了 " 生態(tài)豎井 ",不同硬件生態(tài)系統(tǒng)封閉且互不兼容,軟件棧不能很好地協(xié)調和打通,算力使用面臨一系列非常復雜的工程挑戰(zhàn)。即便算力集群眾多,仍難以實現(xiàn)有效的整合與利用,這是對算力資源的浪費,不僅成為構建 AI Native 基礎設施的最大難點,也是當前大模型行業(yè)面臨 " 算力荒 " 的重要原因。
無問芯穹想構建一個能適配中國多模型與多芯片生態(tài)格局的 AI Native 基礎設施,提供高效整合異構算力資源的好用算力平臺,以及支持軟硬件聯(lián)合優(yōu)化與加速的中間件,打破現(xiàn)有 " 生態(tài)豎井 ",讓異構芯片和集群真正轉化為大算力。
AI 的訓練推理任務和傳統(tǒng)的計算有很大的差異,比如單任務會很大并且很突發(fā),所以如果不做一個更 AI Native 的調度策略,會使整個系統(tǒng)的資源利用率非常低,甚至導致客戶任務經常掛掉重啟,進而耽誤 AI 發(fā)展進程。
無問芯穹的解決方案在底層有完善的云管系統(tǒng),包括調度能力以及 PaaS 和 MaaS 平臺。下面相當于是云端協(xié)同的算力底座,能讓大模型的開發(fā)者和研究者拎包入住,快速把不同算力用起來。
在這基礎上構建的 MaaS 的服務平臺,也就是模型集服務的平臺,可提供很多靈活應用的大模型服務,來幫助一些還在 AI 學習期的企業(yè)敏捷開發(fā)一些大模型大規(guī)模應用。
實現(xiàn)不同芯片交叉混訓,降低大模型應用落地成本
一系列產研進展背后,無問芯穹研發(fā)團隊在異構芯片計算優(yōu)化與集群系統(tǒng)設計上有非常多的實踐經驗與成果。
近日,無問芯穹與清華、上交的聯(lián)合研究團隊發(fā)布了一個用于大規(guī)模模型的異構分布式混合訓練系統(tǒng) HETHUB。這是業(yè)內首次實現(xiàn)六種不同品牌芯片間的交叉混合訓練,且工程化完成度高。據(jù)夏立雪介紹,這項技術工程化的初衷是希望能夠通過整合更多異構算力,繼續(xù)推高大模型技術能力的上限,同時通過打通異構芯片生態(tài),持續(xù)降低大模型應用落地成本。
他談道,該系統(tǒng)在構建中面臨的兩大主要挑戰(zhàn)是通信和分布式訓練。不同硬件架構的通信庫不同,相當于讓兩個人使用完全不同的語言來配合完成一個大工程;異構卡出于不同的設計理念,會有很多性能差異,適配不同的任務,導致多種不同類型的卡展現(xiàn)出的效率差異會使大規(guī)模分布式訓練變得低效。
因此,其團隊做了很多方面的工作,包括:
1、通信方面,建立通用的集合通信庫,實現(xiàn)不同種芯片的高效通信,兼容非常多種類的硬件;
2、提出了基于流水線并行的非均勻拆分方案,解決不同硬件效率不一樣的問題,針對自身情況分配最適合的任務;
3、自研混訓預測工具,能在訓練最開始的階段就提前預測好每個芯片會發(fā)揮什么樣的價值,從而找到一個最優(yōu)的拆分策略,完成整個訓練任務在不同卡上形成最高效的配合。
從實際混訓的效果來看,無問芯穹做得非常多的組合可達到 70% 以上,算力利用率最高可達到 97.6%,6 種不同組合芯片上的混訓做到了千卡規(guī)模。