什么是海量數(shù)據(jù) 海量數(shù)據(jù)的定義解決方案
海量數(shù)據(jù)的意思:
海量數(shù)據(jù)是一個形容詞,它是用來形容巨大的、空前浩瀚的數(shù)據(jù)。現(xiàn)在,在許多業(yè)務(wù)部門中都需要操作海量數(shù)據(jù),如規(guī)劃部門有規(guī)劃方面的數(shù)據(jù),水利部門有水利方面的數(shù)據(jù),氣象部門有氣象方面的數(shù)據(jù),測繪部門有測繪方面的數(shù)據(jù),這些部門都可能有幾百兆甚至數(shù)十千兆的數(shù)據(jù),如僅測繪部門的全國1∶25萬地形數(shù)據(jù)庫的數(shù)據(jù)量就達4.5Gb(千兆);又如一景包含七個波段的Landsat TM影像的數(shù)據(jù)量達270兆左右,如果統(tǒng)計覆蓋全國的TM影像的數(shù)據(jù)量將達到135Gb(千兆),真是不可思議。隨著人類信息化程度的提高,數(shù)據(jù)已超出它原始的范疇,它包含各種空間數(shù)據(jù)、報表統(tǒng)計數(shù)據(jù)、文字、聲音、圖像、超文本等各種環(huán)境和文化數(shù)據(jù)信息。隨著社會信息化程度的提高、計算機的普及,特別是因特網(wǎng)和萬維網(wǎng)(WWW)的迅速發(fā)展,世界各地、各行業(yè)、各部門以及個人都能通過網(wǎng)絡(luò)達到信息共享,使得分布于世界各地的海量數(shù)據(jù)能有機地聯(lián)系在一起。
什么是海量數(shù)據(jù)?海量數(shù)據(jù)還可以稱為大數(shù)據(jù)。對于大數(shù)據(jù)(Big data)研究機構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。其特色在于可對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘,但必須依托云計算的分布式處理、分布式數(shù)據(jù)庫以及云存儲、虛擬化技術(shù)。
隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。《著云臺》的分析師團隊認為,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce –樣的框架來向數(shù)十、數(shù)百甚至數(shù)千臺計算機分配工作。
1.大數(shù)據(jù)的特點
相比傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,大數(shù)據(jù)分析具有數(shù)據(jù)量大、查詢分析復雜等特點?!队嬎銠C學報》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺需要具備的幾個重要特性,對當前的主流實現(xiàn)平臺——并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)進行了分析歸納,指出了各自的優(yōu)勢及不足,同時也對各個方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進行了介紹,對未來研究做了展望。
大數(shù)據(jù)的特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別躍升到PB級別。第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。第三,處理速度快。1s定律,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息,這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對其進行正確、準確的分析,將會帶來很高的價值回報。業(yè)界將其歸納為4個“V”Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(數(shù)據(jù)價值大)。
從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點至關(guān)重要,也正是這一點促使該技術(shù)具備走向眾多企業(yè)的潛力。
2.大數(shù)據(jù)的用途
大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學問題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運營管理的系統(tǒng)工程;大數(shù)據(jù)科學關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關(guān)系。
物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
然而,當人們發(fā)現(xiàn)數(shù)據(jù)庫中的數(shù)據(jù)可以分為三種類型:結(jié)構(gòu)性數(shù)據(jù)、非結(jié)構(gòu)性數(shù)據(jù)以及半結(jié)構(gòu)性數(shù)據(jù)等復雜情況時,問題似乎就沒有那么簡單了。如果僅僅是海量的結(jié)構(gòu)性數(shù)據(jù),那么解決的辦法就比較的單一,用戶通過購買更多的存儲設(shè)備,提高存儲設(shè)備的效率等解決此類問題。
大數(shù)據(jù)洶涌來襲
但是,當類型復雜的數(shù)據(jù)洶涌襲來,那么對于用戶IT系統(tǒng)的沖擊又會是另外一種處理方式。很多業(yè)內(nèi)專家和第三方調(diào)查機構(gòu)通過一些市場調(diào)查數(shù)據(jù)發(fā)現(xiàn),大數(shù)據(jù)時代即將到來。
其中,85%的數(shù)據(jù)屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等之中的非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生往往伴隨著社交網(wǎng)絡(luò)、移動計算和傳感器等新的渠道和技術(shù)的不斷涌現(xiàn)和應(yīng)用。
大數(shù)據(jù)的概念和云計算一樣,也存在著很多的炒作和大量的不確定性。為此,我們咨詢了多位分析師和研究大數(shù)據(jù)的專家,讓他們解釋大數(shù)據(jù)是什么和不是什么,以及大數(shù)據(jù)對于數(shù)據(jù)挖掘的未來究竟意味著什么等諸多問題。
在云計算繼續(xù)成熟和平板電腦廠商之間的競爭日益激烈的氛圍中,2011年預計會看到更多的把多TB(1TB = 1000 GB)數(shù)據(jù)集用于商務(wù)智能和商務(wù)分析。多TB數(shù)據(jù)集也稱作大數(shù)據(jù)。據(jù)市場研究公司IDC統(tǒng)計,數(shù)據(jù)使用預計將增長44倍,全球數(shù)據(jù)使用量將達到大約35.2ZB(1ZB = 10億TB)。然而,單個數(shù)據(jù)集的文件尺寸也將增加,導致對更大處理能力的需求以便分析和理解這些數(shù)據(jù)集。
存儲巨頭EMC指出,它的1000多個客戶在其陣列中使用1PB(千兆兆)以上的數(shù)據(jù)數(shù)據(jù),這個數(shù)字到2020年將增長到10萬。一些客戶在一兩年內(nèi)還將開始使用數(shù)千倍多的數(shù)據(jù),1EB(1艾字節(jié) = 10億GB)或者更多的數(shù)據(jù)。
對大企業(yè)而言,大數(shù)據(jù)的興起部分是因為計算能力可用更低的成本獲得,且各類系統(tǒng)如今已能夠執(zhí)行多任務(wù)處理。其次,內(nèi)存的成本也在直線下降,企業(yè)可以在內(nèi)存中處理比以往更多的數(shù)據(jù)。還有就是把計算機聚合成服務(wù)器集群越來越簡單。IDC的數(shù)據(jù)庫管理分析師Carl Olofson認為,這三大因素的結(jié)合便催生了大數(shù)據(jù)。
IDC認為,某項技術(shù)要想成為大數(shù)據(jù)技術(shù),首先必須是成本可承受的,其次是必須滿足IBM所描述的三個V判據(jù)中的兩個:多樣性(variety)、體量(volume)和速度(velocity)。
個人理解,拋磚引玉,說的不準確千萬磚下留情,呵呵
海量數(shù)據(jù)是一般性描述,意指很大的數(shù)據(jù)量;而大數(shù)據(jù)則是近年來火熱起來的一個專屬名詞,不僅僅指字面上的大量數(shù)據(jù),還包含有針對數(shù)據(jù)的綜合分析以及特征信息相關(guān)的數(shù)據(jù)挖掘等含義,
不是一個概念。海量數(shù)據(jù)僅僅是指數(shù)據(jù)的量比較大,而大數(shù)據(jù)一般認為有5個V,其中就包括體量大(海量數(shù)據(jù)),但是大數(shù)據(jù)還不僅僅是數(shù)據(jù)量大,還有數(shù)據(jù)的不確定性、速度等幾個方面。
如果是海量數(shù)據(jù),用mysql的話,要會自己分庫分表,自己寫查詢查不同的庫,然后匯總,可以考慮使用java或python這類帶并發(fā)的語言進行查詢。
海量數(shù)據(jù),也可以直接使用nosql的庫,網(wǎng)上很多,我沒用過,但我知道很多人在用。
0 Comments.