然而到了今天,存儲行業(yè)的現(xiàn)實(shí)狀況并不樂觀。
一方面,大數(shù)據(jù)發(fā)展的潮流不斷地全速前進(jìn)。盡管企業(yè)對于大數(shù)據(jù)的Volume(大批量)、Velocity(高速傳遞)、Variety(多樣性)等特征一直保持著高度的興致,但企業(yè)對于大數(shù)據(jù)技術(shù)的采用率仍然很低,主要仍集中在實(shí)驗(yàn)階段。同時(shí),一些大數(shù)據(jù)初創(chuàng)企業(yè)繼續(xù)吸引著大量的資金,并認(rèn)為這些大數(shù)據(jù)的賭博會讓他們完好無損。
大數(shù)據(jù)存儲沒什么大不了的
而另一方面,盡管市場似乎已經(jīng)為廣大的存儲企業(yè)帶來了明顯的理想優(yōu)勢,但存儲企業(yè)并沒有充分融入到大數(shù)據(jù)發(fā)展的潮流中,盡管其中也不乏一些企業(yè)在朝著這方面努力。在過去的幾年中,我們已經(jīng)看到許多存儲企業(yè)投資于該領(lǐng)域——包括技術(shù)方面以及純營銷方面,以便隨著大數(shù)據(jù)發(fā)展的趨勢而進(jìn)行自身的調(diào)整。
在技術(shù)方面,大部分都傾向于相信大多數(shù)存儲企業(yè)均擅長于高效地存儲和保護(hù)大量數(shù)據(jù)——能夠十拿九穩(wěn)的戰(zhàn)勝那些部署Hadoop的企業(yè)。
當(dāng)您企業(yè)的數(shù)據(jù)中心可能已經(jīng)有了價(jià)值數(shù)百萬美元的專用存儲設(shè)備,也具備相關(guān)的專業(yè)知識時(shí),為什么要在Hadoop中依靠相當(dāng)有限的數(shù)據(jù)存儲模型呢?因此,存儲行業(yè)的巨頭如EMC、賽門鐵克和IBM,以及一些較小存儲供應(yīng)商如Cleversafe,曾將他們的軟件技術(shù)與Hadoop進(jìn)行整合。
但是,這些方面的努力對于促進(jìn)企業(yè)用戶采用大數(shù)據(jù)技術(shù)方面的收效甚微。當(dāng)然,我們也可以看到某些極個別采用了大數(shù)據(jù)技術(shù)的案例,但到目前為止,存儲行業(yè)并未能找到一種能夠很好的融入大數(shù)據(jù)的方式。在我們與長期運(yùn)行Hadoop社區(qū)的廣泛對話中,我們被告知無論是分銷商和終端用戶都從未提及過關(guān)于存儲的話題。其根本就不被視為一個問題。
這種與大數(shù)據(jù)相關(guān)的明顯的矛盾,也明顯存在于我們對于最終用戶調(diào)研中。
當(dāng)我們在采訪一些大中型企業(yè)的存儲專業(yè)人士關(guān)于其所在企業(yè)就大數(shù)據(jù)解決方案方面的投資計(jì)劃時(shí),四分之一的受訪者表示說他們已經(jīng)在這方面有了投資,而有40%的受訪者則表示他們沒有這方面的計(jì)劃。其余的14%的受訪者表示他們已經(jīng)制定了在大數(shù)據(jù)方面的投資計(jì)劃,有13%的受訪者說他們未來可能會制定大數(shù)據(jù)投資計(jì)劃。
許多企業(yè)受訪者告訴我們,他們處理大數(shù)據(jù)存儲的方式是通過利用現(xiàn)有的SAN。而這些企業(yè)表示,連續(xù)兩年的大數(shù)據(jù)運(yùn)行僅占其總存儲的3%。
大數(shù)據(jù)并不在數(shù)據(jù)中心
顯然,這有一些混亂。但這對于一個在短期內(nèi)被以驚人的程度大量使用,甚至是濫用的術(shù)語而言并不奇怪。詢問一名存儲專業(yè)人士關(guān)于如何看待大數(shù)據(jù),他們腦海中所思考的大數(shù)據(jù)可能與數(shù)據(jù)科學(xué)家們的想象有很大的不同。
但是,讓我們來分析一些最為真實(shí)的大數(shù)據(jù)倡議吧(最典型的是基于Hadoop的項(xiàng)目),其并不在數(shù)據(jù)中心的核心運(yùn)行。其運(yùn)行在一個特設(shè)的個別部門的基礎(chǔ)實(shí)驗(yàn),如工程,產(chǎn)品開發(fā)和市場營銷。
核心的IT部門可能甚至都不知道有這樣的項(xiàng)目正在進(jìn)行中。在這樣的情況下,很容易了解到為什么存儲不受重視;重要的是,存儲的成本是很便宜的而且也易于使用。成本昂貴且難以管理的外部系統(tǒng),如SAN和NAS被視為矯枉過正的DAS規(guī)則。
雖然我們并不指望能夠在短時(shí)間內(nèi)會發(fā)生大的變化,但圍繞Hadoop項(xiàng)目長期存在的一個問題是,當(dāng)其達(dá)到一定的規(guī)模,成熟度和重要性時(shí),有必要把他們交付給IT部門來管理。
大數(shù)據(jù)存儲的前景
是否已經(jīng)有關(guān)于大數(shù)據(jù)存儲發(fā)展的一些跡象了呢?是的,但其仍然處于早期。當(dāng)我們在采訪存儲專業(yè)人士關(guān)于驅(qū)動數(shù)據(jù)增長的因素的話題時(shí),14%的受訪者說:“雖然我們已經(jīng)注意到大數(shù)據(jù)(先進(jìn)的分析技術(shù))正受到許多數(shù)據(jù)類型/應(yīng)用程序快速增長的影響。但其優(yōu)先級仍然被排在了許多更為緊迫的問題之后,如服務(wù)器虛擬化和滿足新的和現(xiàn)有的業(yè)務(wù)應(yīng)用程序的需要。
與此同時(shí),一些供應(yīng)商也開始了一些獨(dú)辟蹊徑的思路思考如何增加價(jià)值。如希捷公司的Kinetic開放存儲平臺,通過一個鍵值存儲實(shí)現(xiàn)以太網(wǎng)功能的硬盤,開辟了非常簡單的大規(guī)模存儲系統(tǒng),可以作為大數(shù)據(jù)和基于對象的應(yīng)用程序具有成本效益的后端。
EMC采取了稍微不同的策略,將其VIPR產(chǎn)品作為一款平臺,可以從一個單一的界面管理多款應(yīng)用程序和存儲環(huán)境。雖然其最初是將重點(diǎn)放在傳統(tǒng)的存儲協(xié)議如文件和存儲塊等,現(xiàn)在也支持對象存儲,并也能夠管理Hadoop環(huán)境。
其他的一些存儲企業(yè)也采取了一些類似的舉措,例如Scality和Inktank將文件和對象存儲功能集成到一個平臺,部分原因是由于大量非結(jié)構(gòu)化數(shù)據(jù)駐留在一個共同的存儲庫是奏效的,而不管實(shí)際的數(shù)據(jù)訪問方法。
事實(shí)上,這些廠商認(rèn)為集中管理最終將有助于IT經(jīng)理。大數(shù)據(jù),無論是Hadoop或其他技術(shù)的變形,畢竟都只是另一種數(shù)據(jù)類型,都應(yīng)該以同樣的方式對待。
很多IT部門所面臨的一大挑戰(zhàn)是,存儲已經(jīng)分散到太多的筒倉領(lǐng)域,而大數(shù)據(jù)的風(fēng)險(xiǎn)在于,其正成為另一個獨(dú)立于一切的數(shù)據(jù)孤島,并進(jìn)一步加劇了整體管理成本。
在這種情況下,我們給存儲廠商的建議是提出了一些創(chuàng)新的技術(shù)解決方案。不幸的是,到目前為止的現(xiàn)實(shí)狀況是,這些方法是遠(yuǎn)遠(yuǎn)領(lǐng)先于市場的,并在很大程度上已經(jīng)成為一個尋找問題的解決方案。
盡管如此,我們?nèi)匀粯酚^的認(rèn)為存儲最終將在整個大數(shù)據(jù)領(lǐng)域發(fā)揮更突出的作用,但其確切的性質(zhì)和時(shí)間表仍有待確定。