近些年,人工智能技術(shù)快速發(fā)展,宛如一顆璀璨的新星,成為推動科技和產(chǎn)業(yè)加速發(fā)展的重要力量,為經(jīng)濟社會的發(fā)展和人類文明的進步帶來了深遠且持久的影響。2023年寬泛科技攜手教育部科技發(fā)展中心,發(fā)布了中國高校產(chǎn)學研創(chuàng)新基金,這一舉措旨在全力支持高校在人工智能領(lǐng)域的課題研究,為培養(yǎng)未來的人工智能人才和推動學術(shù)創(chuàng)新貢獻力量。
強大的基礎設施是AI技術(shù)的推動力,為此,寬泛科技聯(lián)合華為數(shù)據(jù)存儲,使用華為AI數(shù)據(jù)湖解決方案一同構(gòu)建先進的訓練平臺。華為AI數(shù)據(jù)湖解決方案是訓練平臺的重要組成部分,它基于多套OceanStor AI存儲,依托多協(xié)議互通、智能數(shù)據(jù)分級以及高性能并行客戶端的專業(yè)存儲能力,提供令人驚嘆的TB級帶寬以及強大的EB級容量擴展實力,從而加速大模型的訓練。
寬泛科技:構(gòu)建AI訓練平臺面臨挑戰(zhàn)
算力可用度的提升
大模型訓練以多機多卡任務為主,往往會用到成千上萬張GPU卡,運行過程中常常面臨各種故障,如網(wǎng)絡波動、硬盤故障、GPU故障等,這些故障都可能導致訓練任務意外中斷。因此,大模型算力的實際可用度普遍低于50%,這對訓練效率和資源利用率構(gòu)成了顯著的影響。為了對訓練到推理的全流程進行優(yōu)化,寬泛科技意識到使用專業(yè)的AI存儲避免GPU無效等待至關(guān)重要。
容量平滑擴展能力
隨著算力租賃市場的蓬勃發(fā)展以及多模態(tài)智能化技術(shù)的不斷演進,寬泛科技的AI集群規(guī)模亟需從千卡規(guī)模演進至萬卡。這一過程導致數(shù)據(jù)量的激增,存儲容量也需要從幾PB到幾十PB,甚至擴展到EB級。在靈活擴展的同時,還要兼顧成本,這就需要提高存儲介質(zhì)的利用效率,對數(shù)據(jù)進行“溫”、“冷”、“熱”的區(qū)分,將它們存在相應的存儲介質(zhì)上,能夠顯著降低存儲成本。
并發(fā)可靠訪問能力
隨著越來越多的研究人員加入到高校人工智能課題的研究,寬泛科技所要求的AI集群規(guī)模也越來越大,同時會有上千名研究員并發(fā)測試、調(diào)度、調(diào)優(yōu)等,且隨著業(yè)務量逐漸加大,并發(fā)量還將逐漸增大,因此對存儲的高并發(fā)可靠訪問能力也有非常高的要求。
華為 AI 數(shù)據(jù)湖解決方案
寬泛訓練平臺的卓越之選
寬泛科技與華為數(shù)據(jù)存儲強強聯(lián)手,共同構(gòu)建起領(lǐng)先的大模型訓練平臺,它基于寬泛飛魚調(diào)度平臺和華為AI數(shù)據(jù)湖解決方案,為客戶提供端到端(E2E)的解決方案。這一方案能夠大大節(jié)省客戶在選型和調(diào)優(yōu)上所耗費的時間,幫助客戶在短時間內(nèi)完成更多的任務。無論是在仿真實驗室、氣象預測,還是 AI 助教等高等教育人工智能訓推場景中,都能夠?qū)崿F(xiàn)快速部署,高效運用。
華為AI數(shù)據(jù)湖解決方案憑借其良好的兼容性、EB級容量擴展能力以及超高性能等顯著特質(zhì),成為寬泛算力中心數(shù)據(jù)基礎設施的首選方案。這一方案極大的提升了AI集群算力可用度,顯著提高了建設效率。
高效解決GPU利用率低難題
華為AI數(shù)據(jù)湖解決方案的高速并行文件系統(tǒng)DPC在構(gòu)建先進訓練平臺中發(fā)揮著關(guān)鍵作用,特別是在多節(jié)點并發(fā)場景下,能夠提供TB級帶寬、性能優(yōu)于Lustre 2倍之多,能夠使AI集群GPU利用率提升10%,其卓越的性能為算力中心提供強大動力,加速企業(yè)算力中心訓推的整個流程。
從容應對數(shù)據(jù)增長與算力需求
隨著數(shù)據(jù)量的不斷增加,訓練平臺集群規(guī)模需要同步擴展,華為AI數(shù)據(jù)湖解決方案完美契合了算力平臺平滑演進的需求,支持最大4096節(jié)點橫向擴展,實現(xiàn)從PB級到EB級容量擴展。
此外,還支持數(shù)據(jù)智能溫熱分級,借此優(yōu)化資源利用率,保障關(guān)鍵數(shù)據(jù)快速訪問。采用性能層與容量層配合,性能層存儲熱數(shù)據(jù)和高頻訪問的數(shù)據(jù),提供高速的讀寫性能和低延時;容量層存儲溫冷數(shù)據(jù),這些數(shù)據(jù)訪問頻率較低,但是對存儲容量的需求較大。通過這樣的設計,能夠兼顧AI場景混合數(shù)據(jù)負載訴求,實現(xiàn)存儲價值最大化。
打破數(shù)據(jù)孤島,挖掘價值寶藏
通過統(tǒng)一的存儲平臺以及無損多協(xié)議互通,數(shù)據(jù)湖實現(xiàn)了統(tǒng)一管理。它成功消除了傳統(tǒng)數(shù)據(jù)存儲方式中數(shù)據(jù)分散在不同系統(tǒng)和應用中的“數(shù)據(jù)孤島”問題,為客戶數(shù)據(jù)中心提供統(tǒng)一存儲底座,并且能夠與寬泛飛魚調(diào)度平臺兼容,有力支撐寬泛混合算力的部署,大大節(jié)省了客戶選型和調(diào)優(yōu)的時間,幫助企業(yè)更全面的管理自身的數(shù)據(jù)資產(chǎn),進而深度挖掘其中蘊含的價值。
寬泛科技聯(lián)合華為數(shù)據(jù)存儲,以寬泛飛魚調(diào)度平臺和華為AI數(shù)據(jù)湖解決方案為基礎,融合先進的算法和高可靠的數(shù)據(jù)湖底座,共同打造出更加先進的訓練平臺。成功打破“數(shù)據(jù)孤島”,架起聯(lián)通數(shù)據(jù)與知識的橋梁,加速AI人工智能的涌現(xiàn)。