文/希捷科技全球高級副總裁暨中國區(qū)總裁 孫丹
這篇文章并非出自于ChatGPT之手。不過在過去幾個月中,生成式AI的確是炙手可熱的話題。
科技巨頭已將他們的運營計劃建立在AI基礎上。微軟表示,生成式AI可為其增加400億美元的營收。生成式AI市場可推動全球GDP增長近7萬億美元。約75%的公司預計在未來五年內(nèi)會采用人工智能技術。ChatGPT在推出的最初兩個月就擁有了1億多用戶,成為有史以來增長速度最快的消費級應用。
但是,如果缺失一個要素:數(shù)據(jù),最好的人工智能模型也將毫無用處。
公司需要海量數(shù)據(jù)來訓練人工智能模型,以便于從之前未開發(fā)的信息中獲得洞察和價值。由于將來的人工智能工具將可以從過去的數(shù)據(jù)中挖掘到難以想象的見解,因此應盡可能多地保存數(shù)據(jù)。
聊天機器人以及圖像和視頻AI生成器會創(chuàng)建更多需要公司管理的數(shù)據(jù),并且需要保留它們的推論以便于為未來的算法提供信息支撐。Gartner預計,到2025年,生成式AI將占生成數(shù)據(jù)總量的10%,而目前該比例還不足1%。將此項研究與IDC的全球數(shù)據(jù)圈預測研究進行交叉印證,我們預計ChatGPT、DALL-E、Bard和DeepBrain AI等生成式AI技術將在未來五年內(nèi)創(chuàng)建ZB級數(shù)據(jù)。
只有采用簡單且經(jīng)濟高效的數(shù)據(jù)存儲策略,企業(yè)才能大規(guī)模訓練和部署人工智能工具,最終利用人工智能應用。海量數(shù)據(jù)集需要大容量存儲。如果以前數(shù)據(jù)沒有存下來,那么現(xiàn)在必須采取行動。
為什么AI需要數(shù)據(jù)?
IDC數(shù)據(jù)顯示,2022年創(chuàng)建的企業(yè)數(shù)據(jù)中有84%可用于分析,但得到分析或應用到人工智能或機器學習算法中的僅有24%。這意味著公司未能利用大部分的可用數(shù)據(jù)。也就錯失了商業(yè)價值。這就像電動汽車:如果電池沒有充電,汽車無法帶您到目的地。如果數(shù)據(jù)沒有存儲,即使是最智能的AI工具也無濟于事。
隨著眾多公司著眼于訓練人工智能模型,大容量存儲將為原始數(shù)據(jù)和生成數(shù)據(jù)提供支持。企業(yè)將需要強有力的數(shù)據(jù)存儲策略。他們可借助云來解決一些人工智能工作負載和存儲,也可以在本地存儲和處理一些數(shù)據(jù)。機械硬盤(約占公有云存儲的90%)是專為海量數(shù)據(jù)集而生的經(jīng)濟高效、耐用可靠的解決方案,能夠存儲持續(xù)訓練人工智能模型所需的大量數(shù)據(jù)。
保留原始數(shù)據(jù)是非常必要的,哪怕這些數(shù)據(jù)已經(jīng)被處理過。比如人工智能創(chuàng)建的一些內(nèi)容可能會產(chǎn)生知識產(chǎn)權糾紛,在行業(yè)調(diào)查或訴訟期間,當問到人工智能洞察的相關問題,便可以用存儲的數(shù)據(jù)證明所有權以及結論的可靠性。
數(shù)據(jù)質量也會影響洞察的可靠性。為了確保更好的數(shù)據(jù)質量,企業(yè)應該使用包括數(shù)據(jù)預處理、數(shù)據(jù)標記、數(shù)據(jù)增強、監(jiān)控數(shù)據(jù)質量指標、數(shù)據(jù)治理和主題專家評審等方法。
企業(yè)如何做好準備
如果保留數(shù)據(jù)的成本太高,企業(yè)會不得不刪除數(shù)據(jù)。這是可以理解的,企業(yè)需要平衡成本與人工智能洞察需求的關系。
為了降低數(shù)據(jù)成本,領先的企業(yè)部署了云成本比較和估算工具。對于本地存儲的企業(yè)來說,更應該考慮用硬盤構建可以優(yōu)化TCO的存儲系統(tǒng)。此外,企業(yè)都需要對監(jiān)測的數(shù)據(jù)和工作負載模式進行優(yōu)先級排序,并盡可能地實現(xiàn)工作流程的自動化。
全面的數(shù)據(jù)分類對于識別訓練人工智能模型所需的數(shù)據(jù)至關重要。要確保敏感數(shù)據(jù)的處理是合規(guī)的,比如個人身份數(shù)據(jù)或財務數(shù)據(jù)等需具備非常強的數(shù)據(jù)安全性。許多企業(yè)對數(shù)據(jù)進行加密以確保安全性,但人工智能算法通常無法從加密數(shù)據(jù)中進行學習。所以企業(yè)還需要一個流程來安全地解密數(shù)據(jù),以便進行培訓,并且可以重新加密存儲。
為了確保人工智能分析成功,企業(yè)應該:
1、養(yǎng)成存儲更多數(shù)據(jù)的習慣,因為在人工智能時代,數(shù)據(jù)更有價值。保留原始數(shù)據(jù)及洞察,不限制可存儲的數(shù)據(jù)量,但要限定哪些數(shù)據(jù)是可以刪除的。
2、制定可以提高數(shù)據(jù)質量的工作流程。
3、降低數(shù)據(jù)存儲成本。
4、實施穩(wěn)健的數(shù)據(jù)分類和合規(guī)性。
5、確保數(shù)據(jù)安全。
不采取以上行動的話,最好的生成式AI模型也會毫無用處。
在生成式AI出現(xiàn)之前,數(shù)據(jù)就是開啟創(chuàng)新的關鍵,最擅長管理多云存儲的企業(yè)實現(xiàn)收入目標的可能性是同行的5.3倍。未來,生成式AI會顯著拉大企業(yè)之間的創(chuàng)新差距。
當前,圍繞生成式AI的討論更多地集中在企業(yè)的創(chuàng)新潛力上。但企業(yè)領導很快就會意識到,數(shù)據(jù)存儲及管理策略才是人工智能成功與否的關鍵因素。