根據IDC一份EMC贊助的報告,消費者和企業(yè)所累積的數據量預計在未來十年內將增加44倍。很多信息就是所謂的大數據。很顯然,大數據需要存儲以及企業(yè)提供的其他產品和服務,因此我們毫不驚奇地看到EMC將大數據列為它的關鍵市場之一。現在,讓我們分析一下大數據的定義以及它的意義,然后簡要的描述一下EMC是如何通過最近對Isilon和Greenplum的收購來面對大數據市場的。
EMC對大數據的工作定義就是:"數據集,或信息,它的規(guī)模、發(fā)布、位置在不同的孤島上,或它的時間線要求客戶部署新的架構來捕捉、存儲、整合(到一個數據集)、管理和分析這些信息以便實現企業(yè)價值。"現在,這個定義需要一定的時間來消化,因為這個定義符合的是EMC的框架和EMC所想做的事。不過,這個定義覆蓋了關鍵的要素,而且有一定的意義。我們來看看一些實例來更好地理解大數據在真實世界中的廣泛分布:
醫(yī)療信息--包括醫(yī)療圖像,比如MRI(磁共振成像),以及電子健康記錄(EHR);
Web對帶寬越來越高的使用--包括Facebook用戶目前每周上傳的20億張圖片,以及上傳到Youtube和其他多媒體網站的無數的視頻;
視頻監(jiān)控--這是一個正在蓬勃發(fā)展的行業(yè),需要大量的存儲,同時需要先進的分析手段來分析圖像資料;
移動設備的廣泛使用--短信浪潮還不會停止;
智能設備--基于傳感器的對信息的搜集有很光明的前景,這帶來了智能電網、智能建筑和許多其他智能類型的公共和工業(yè)基礎設施;
非傳統(tǒng)IT設備--包括對RFID(射頻識別)的使用以及GPS導航系統(tǒng);
對傳統(tǒng)IT信息的非傳統(tǒng)使用--包括將OLTP(聯機事務處理)轉換成,比如,一個數據倉庫,以便應用分析工具、電子發(fā)現和Web信息產生工具;
行業(yè)專門需求--包括在基因研究、油氣勘探、娛樂媒體等領域的高性能計算解決方案;
有人批評說這里沒有任何新穎的地方。例如,醫(yī)療圖像和寬帶Web訪問已經存在了很長時間?;卮鹗?,與大數據相關的變化雖然很可能是程度大小的問題,但是從一定程度上來說,也是形式的問題。程度問題來自于超越我們過去認知的日益密集的使用和更大的規(guī)模--PB級的存儲。形式的問題則與數據從模擬到數字的轉型有關,而且需要用新的途徑來挖掘企業(yè)價值。不過這里需要記住的一點是,大數據是一個龐大的市場,能夠帶來"豐厚的利潤"。從一個IT企業(yè)的角度來看,這就是大數據為什么重要之處。
從一個IT人員的角度來看,信息架構的變化大概經歷了三次浪潮。不過,這些新的浪潮并沒有取代舊的浪潮,舊的還在發(fā)展?,F在是三種類型的數據結構一直在并存著,不過有一種類型的結構有可能主導其他類型:
結構化信息--這種信息位于相關數據庫,多年來主導IT的使用;它仍然是任務關鍵型OLTP系統(tǒng)業(yè)務依賴的信息;你可以對結構化信息進行排序和查詢;
半結構化信息--這是IT界的第二股重要浪潮;這種信息包括電子郵件、辦公處理文檔,以及許多存儲在Web上的信息;半結構化信息是基于內容的信息,可以被搜索,因此它也是Google存在的理由;
非結構化信息--從本來形式上來說,這可以被認為是主要是比特映射的數據;這種數據可以被感知(比如在音頻、視頻和多媒體文件上看到或聽到);許多大數據是非結構化數據,而且它龐大的規(guī)模和極高的復雜性要求高級的分析工具來創(chuàng)建或給它賦予一個適合人們感知或互動的形式;[nextpage]
不幸的是,這種分類框架仍然不夠完美。首先,現實世界中有無數的復合形式,比如嵌入在Word文檔中的圖片。其次,雖然"記錄"是一個可以適用于數據庫的術語,而且許多半結構化信息存儲在文件中,但是許多其他信息存在于信息流中,比如視頻攝像頭捕捉到的圖像。此外,許多對象有完全不同的概念。
傳統(tǒng)IT架構,包括服務器、存儲和網絡,是圍繞結構化信息而構建的,而且也適應半結構化信息。不過,它們實際上不太適用于大數據所帶來的多方面的結構要求、規(guī)模和分析需求。
因此,EMC在他們對大數據的定義中強調新的架構,同時這也是他們?yōu)槭裁匆召廔silon和Greenplum的原因。對于這兩次收購,已經有許多分析和報道,因此我主要是簡要的描述一下這些公司如何體現了我們需要針對大數據的不同架構。