海量數(shù)據(jù)是一個(gè)形容詞,它是用來形容巨大的、空前浩瀚的數(shù)據(jù)。現(xiàn)在,在許多業(yè)務(wù)部門中都需要操作海量數(shù)據(jù),如規(guī)劃部門有規(guī)劃方面的數(shù)據(jù),水利部門有水利方面的數(shù)據(jù),氣象部門有氣象方面的數(shù)據(jù),測(cè)繪部門有測(cè)繪方面的數(shù)據(jù),這些部門都可能有幾百兆甚至數(shù)十千兆的數(shù)據(jù),如僅測(cè)繪部門的全國1∶25萬地形數(shù)據(jù)庫的數(shù)據(jù)量就達(dá)4.5Gb(千兆);又如一景包含七個(gè)波段的Landsat TM影像的數(shù)據(jù)量達(dá)270兆左右,如果統(tǒng)計(jì)覆蓋全國的TM影像的數(shù)據(jù)量將達(dá)到135Gb(千兆),真是不可思議。隨著人類信息化程度的提高,數(shù)據(jù)已超出它原始的范疇,它包含各種空間數(shù)據(jù)、報(bào)表統(tǒng)計(jì)數(shù)據(jù)、文字、聲音、圖像、超文本等各種環(huán)境和文化數(shù)據(jù)信息。隨著社會(huì)信息化程度的提高、計(jì)算機(jī)的普及,特別是因特網(wǎng)和萬維網(wǎng)(WWW)的迅速發(fā)展,世界各地、各行業(yè)、各部門以及個(gè)人都能通過網(wǎng)絡(luò)達(dá)到信息共享,使得分布于世界各地的海量數(shù)據(jù)能有機(jī)地聯(lián)系在一起。
什么是海量數(shù)據(jù)?海量數(shù)據(jù)還可以稱為大數(shù)據(jù)。對(duì)于大數(shù)據(jù)(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面。大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。其特色在于可對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,但必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫以及云存儲(chǔ)、虛擬化技術(shù)。
隨著云時(shí)代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。《著云臺(tái)》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce –樣的框架來向數(shù)十、數(shù)百甚至數(shù)千臺(tái)計(jì)算機(jī)分配工作。
1.大數(shù)據(jù)的特點(diǎn)
相比傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,大數(shù)據(jù)分析具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn)?!队?jì)算機(jī)學(xué)報(bào)》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺(tái)需要具備的幾個(gè)重要特性,對(duì)當(dāng)前的主流實(shí)現(xiàn)平臺(tái)——并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進(jìn)行了分析歸納,指出了各自的優(yōu)勢(shì)及不足,同時(shí)也對(duì)各個(gè)方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進(jìn)行了介紹,對(duì)未來研究做了展望。
大數(shù)據(jù)的特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別躍升到PB級(jí)別。第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。第三,處理速度快。1s定律,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來很高的價(jià)值回報(bào)。業(yè)界將其歸納為4個(gè)“V”Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(數(shù)據(jù)價(jià)值大)。
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
2.大數(shù)據(jù)的用途
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營過程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。
物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
然而,當(dāng)人們發(fā)現(xiàn)數(shù)據(jù)庫中的數(shù)據(jù)可以分為三種類型:結(jié)構(gòu)性數(shù)據(jù)、非結(jié)構(gòu)性數(shù)據(jù)以及半結(jié)構(gòu)性數(shù)據(jù)等復(fù)雜情況時(shí),問題似乎就沒有那么簡單了。如果僅僅是海量的結(jié)構(gòu)性數(shù)據(jù),那么解決的辦法就比較的單一,用戶通過購買更多的存儲(chǔ)設(shè)備,提高存儲(chǔ)設(shè)備的效率等解決此類問題。
大數(shù)據(jù)洶涌來襲
但是,當(dāng)類型復(fù)雜的數(shù)據(jù)洶涌襲來,那么對(duì)于用戶IT系統(tǒng)的沖擊又會(huì)是另外一種處理方式。很多業(yè)內(nèi)專家和第三方調(diào)查機(jī)構(gòu)通過一些市場調(diào)查數(shù)據(jù)發(fā)現(xiàn),大數(shù)據(jù)時(shí)代即將到來。
其中,85%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等之中的非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等新的渠道和技術(shù)的不斷涌現(xiàn)和應(yīng)用。
大數(shù)據(jù)的概念和云計(jì)算一樣,也存在著很多的炒作和大量的不確定性。為此,我們咨詢了多位分析師和研究大數(shù)據(jù)的專家,讓他們解釋大數(shù)據(jù)是什么和不是什么,以及大數(shù)據(jù)對(duì)于數(shù)據(jù)挖掘的未來究竟意味著什么等諸多問題。
在云計(jì)算繼續(xù)成熟和平板電腦廠商之間的競爭日益激烈的氛圍中,2011年預(yù)計(jì)會(huì)看到更多的把多TB(1TB = 1000 GB)數(shù)據(jù)集用于商務(wù)智能和商務(wù)分析。多TB數(shù)據(jù)集也稱作大數(shù)據(jù)。據(jù)市場研究公司IDC統(tǒng)計(jì),數(shù)據(jù)使用預(yù)計(jì)將增長44倍,全球數(shù)據(jù)使用量將達(dá)到大約35.2ZB(1ZB = 10億TB)。然而,單個(gè)數(shù)據(jù)集的文件尺寸也將增加,導(dǎo)致對(duì)更大處理能力的需求以便分析和理解這些數(shù)據(jù)集。
存儲(chǔ)巨頭EMC指出,它的1000多個(gè)客戶在其陣列中使用1PB(千兆兆)以上的數(shù)據(jù)數(shù)據(jù),這個(gè)數(shù)字到2020年將增長到10萬。一些客戶在一兩年內(nèi)還將開始使用數(shù)千倍多的數(shù)據(jù),1EB(1艾字節(jié) = 10億GB)或者更多的數(shù)據(jù)。
對(duì)大企業(yè)而言,大數(shù)據(jù)的興起部分是因?yàn)橛?jì)算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務(wù)處理。其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù)。還有就是把計(jì)算機(jī)聚合成服務(wù)器集群越來越簡單。IDC的數(shù)據(jù)庫管理分析師Carl Olofson認(rèn)為,這三大因素的結(jié)合便催生了大數(shù)據(jù)。
IDC認(rèn)為,某項(xiàng)技術(shù)要想成為大數(shù)據(jù)技術(shù),首先必須是成本可承受的,其次是必須滿足IBM所描述的三個(gè)V判據(jù)中的兩個(gè):多樣性(variety)、體量(volume)和速度(velocity)。
個(gè)人理解,拋磚引玉,說的不準(zhǔn)確千萬磚下留情,呵呵
海量數(shù)據(jù)是一般性描述,意指很大的數(shù)據(jù)量;而大數(shù)據(jù)則是近年來火熱起來的一個(gè)專屬名詞,不僅僅指字面上的大量數(shù)據(jù),還包含有針對(duì)數(shù)據(jù)的綜合分析以及特征信息相關(guān)的數(shù)據(jù)挖掘等含義,
不是一個(gè)概念。海量數(shù)據(jù)僅僅是指數(shù)據(jù)的量比較大,而大數(shù)據(jù)一般認(rèn)為有5個(gè)V,其中就包括體量大(海量數(shù)據(jù)),但是大數(shù)據(jù)還不僅僅是數(shù)據(jù)量大,還有數(shù)據(jù)的不確定性、速度等幾個(gè)方面。