
大數(shù)據(jù)的簡單介紹_大數(shù)據(jù)
一、大數(shù)據(jù)的定義和特征
1.大數(shù)據(jù)的定義
對(duì)于大數(shù)據(jù)還沒有一個(gè)正式的定義,目前最為普遍的定義就是“用傳統(tǒng)方法或工具不能處理或分析的數(shù)據(jù)”。不同的定義基本是從大數(shù)據(jù)的特征出發(fā)通過這些特征的闡述和歸納試圖給出其定義。在這些定義中比較有代表性的是3V定義,即認(rèn)為大數(shù)據(jù)需滿足3個(gè)特點(diǎn):規(guī)模性(volume)多樣性(variety)和高速性(velocity)。除此之外還有提出4V定義的,即嘗試在3V的基礎(chǔ)上增加一個(gè)新的特性。關(guān)于第4個(gè)V的說法并不統(tǒng)一,國際數(shù)據(jù)公司(International Data Corporation, IDC)認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性(value),大數(shù)據(jù)的價(jià)值往往呈現(xiàn)出稀疏性的特點(diǎn)。而IBM認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(veracity)。維基百科對(duì)大數(shù)據(jù)的定義則簡單明了:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過可容忍時(shí)間的數(shù)據(jù)集。
2.大數(shù)據(jù)的特征
3V認(rèn)為大數(shù)據(jù)具有規(guī)模性、高速性和多樣性三大特征,這些特征是傳統(tǒng)數(shù)據(jù)處理方法和工具所無法勝任的。
2.1規(guī)模性(Volume)是指數(shù)據(jù)量非常龐大,主要體現(xiàn)在數(shù)據(jù)存儲(chǔ)量大和計(jì)算量大。根據(jù)IDC《數(shù)字宇宙膨脹:到2010年全球信息增長預(yù)測(cè)》中統(tǒng)計(jì)的數(shù)據(jù),2006年全球每年制造、復(fù)制出的數(shù)字信息量共計(jì)16.1萬PB,當(dāng)年信息產(chǎn)生量大約是歷史上圖書信息總量的3000倍;至2010年,數(shù)字信息總量達(dá)98.8萬PB。專家指出,2020年年度數(shù)據(jù)將增加43倍。因此,大數(shù)據(jù)中的數(shù)據(jù)不再以幾個(gè)GB或幾個(gè)TB為單位來衡量,而是以PB(1千個(gè)T)、EB(1百萬個(gè)T)或ZB(10億個(gè)T)為計(jì)量單位。
2.2高速性(Velocity)一方面是指數(shù)據(jù)在不斷更新,增長的速度快,另一方面是指數(shù)據(jù)存儲(chǔ)、傳輸?shù)忍幚硭俣群芸?。短?0秒,YouTube用戶會(huì)上傳48小時(shí)的視頻;Google會(huì)收到200萬次搜索請(qǐng)求并極快地返回結(jié)果;Twitter要處理100萬條Tweets信息;網(wǎng)購產(chǎn)生27.2萬美元的交易;App Store有4.7萬次下載;全球新增網(wǎng)頁571個(gè)。數(shù)據(jù)處理的速度也要求越來越快,甚至是實(shí)時(shí)處理,比如災(zāi)難的預(yù)測(cè),需很快的對(duì)災(zāi)難發(fā)生的程度、影響的區(qū)域范圍等進(jìn)行量化。如日本大地震發(fā)生后僅9分鐘,美國國家海洋和大氣管理局(NOAA)就發(fā)布了詳細(xì)的海嘯預(yù)警。
2.3多樣性(Variety)指數(shù)據(jù)包含結(jié)構(gòu)化的數(shù)據(jù)表和半結(jié)構(gòu)化、非結(jié)構(gòu)化的文本、視頻、圖像等信息,而且數(shù)據(jù)之間的交互非常頻繁和廣泛。
具體包括三個(gè)方面:
一是數(shù)據(jù)來源多,企業(yè)所面對(duì)的傳統(tǒng)數(shù)據(jù)主要是交易數(shù)據(jù),而互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,帶來了諸如微博、社交網(wǎng)站、傳感器等多種來源。
二是數(shù)據(jù)類型多,并且以非結(jié)構(gòu)化數(shù)據(jù)為主。傳統(tǒng)的企業(yè)中,數(shù)據(jù)都是以表格的形式保存。而大數(shù)據(jù)中70%-85%的數(shù)據(jù)是如圖片、音頻、視頻網(wǎng)絡(luò)日志、鏈接信息等非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。
三是數(shù)據(jù)之間關(guān)聯(lián)性強(qiáng),頻繁交互。如游客在旅游途中上傳的照片和日志,就與游客的位置、行程等信息有了很強(qiáng)的關(guān)聯(lián)性。
二、傳統(tǒng)數(shù)據(jù)庫和大數(shù)據(jù)的比較
1.最基本的區(qū)別在于數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、產(chǎn)生模式。
2.處理對(duì)象的變化。傳統(tǒng)的數(shù)據(jù)庫中數(shù)據(jù)僅作為處理對(duì)象,而在大數(shù)據(jù)時(shí)代,要將數(shù)據(jù)作為一種資源來輔助解決其他諸多領(lǐng)域的問題。
3.處理工具的改變。從以計(jì)算為中心轉(zhuǎn)變到以數(shù)據(jù)處理為中心。
三、大數(shù)據(jù)的處理模式
大數(shù)據(jù)的應(yīng)用類型有很多主要的處理模式可分為流處理(stream processing)和批處理(batch processing)兩種。批處理是先存儲(chǔ)后處理(store-then-process),而流處理則是直接處理(right-through processing)。
1.大數(shù)據(jù)流處理
流處理的基本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少,因此盡可能快地對(duì)最新的數(shù)據(jù)作出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標(biāo)。需要采用流數(shù)據(jù)處理的大數(shù)據(jù)應(yīng)用場景主要有網(wǎng)頁點(diǎn)擊數(shù)的實(shí)時(shí)統(tǒng)計(jì)、傳感器網(wǎng)絡(luò)、金融中的高頻交易等。
流處理的處理模式將數(shù)據(jù)視為流,源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流。當(dāng)新的數(shù)據(jù)到來時(shí)就立刻處理并返回所需的結(jié)果。
快且規(guī)模巨大等特點(diǎn),因此通常不會(huì)對(duì)所有的數(shù)據(jù)進(jìn)行永久化存儲(chǔ),而且數(shù)據(jù)環(huán)境處在不斷的變化之中,系統(tǒng)很難準(zhǔn)確掌握整個(gè)數(shù)據(jù)的全貌。
由于響應(yīng)時(shí)間的要求,流處理的過程基本在內(nèi)存中完成,其處理方式更多地依賴于在內(nèi)存中設(shè)計(jì)巧妙的概要數(shù)據(jù)結(jié)構(gòu)(synopsis data structure),內(nèi)存容量是限制流處理模型的一個(gè)主要瓶頸。以PCM(相變存儲(chǔ)器)為代表的儲(chǔ)存級(jí)內(nèi)存(storage class memory, SCM)設(shè)備的出現(xiàn)或許可以使內(nèi)存未來不再成為流處理模型的制約。
數(shù)據(jù)流的理論數(shù)據(jù)的實(shí)時(shí)處理是一個(gè)很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)達(dá)到,速度及技術(shù)研究已經(jīng)有十幾年的歷史,目前仍舊是研究熱點(diǎn)。與此同時(shí)很多實(shí)際系統(tǒng)也已開發(fā)和得到廣泛的應(yīng)用,比較代表性的開源系統(tǒng)如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka22等.
2.大數(shù)據(jù)批處理
Google公司在2004年提出的MapReduce編程模型是最具代表性的批處理模式。
MapReduce模型首先將用戶的原始數(shù)據(jù)源進(jìn)行分塊,然后分別交給不同的Map任務(wù)區(qū)處理。Map任務(wù)從輸入中解析出健/值(Key/Value)對(duì)集合,然后對(duì)這些集合執(zhí)行用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫入本地硬盤。Reduce任務(wù)從硬盤上讀取數(shù)據(jù)之后會(huì)根據(jù)Key值進(jìn)行排序,將具有相同Key值的組織在一起。最后用戶自定義的Reduce函數(shù)會(huì)作用于這些排好序的結(jié)果并輸出最終結(jié)果。
從MapReduce的處理過程我們可以看出MapReduce的核心設(shè)計(jì)思想在于:
a)將問題分而治之
b)把計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算,有效地避免數(shù)據(jù)傳輸過程中產(chǎn)生的大量通信開銷。
MapReduce模型簡單,且現(xiàn)實(shí)中很多問題都可用MapReduce模型來表示。因此該模型公開后立刻受到極大的關(guān)注,并在生物信息學(xué)、文本挖掘等領(lǐng)域得到廣泛的應(yīng)用。
無論是流處理還是批處理都是大數(shù)據(jù)處理的可行思路。大數(shù)據(jù)的應(yīng)用類型很多,在實(shí)際的大數(shù)據(jù)處理中?常常并不是簡單地只使用其中的某一種而是將二者結(jié)合起來。互聯(lián)網(wǎng)是大數(shù)據(jù)最重要的來源之一,很多互聯(lián)網(wǎng)公司根據(jù)處理時(shí)間的要求將自己的業(yè)務(wù)劃分為在線(online)、近線(nearline)和離線(offline),比如著名的職業(yè)社交網(wǎng)站Linkedin的劃分方式是按處理所耗時(shí)間來劃分的。其中在線的處理時(shí)間一般在秒級(jí)甚至是毫秒級(jí),因此通常采用上面所說的流處理。離線的處理時(shí)間可以以天為基本單位,基本采用批處理方式,這種方式可以最大限度地利用系統(tǒng)I/O。近線的處理時(shí)間一般在分鐘級(jí)或者是小時(shí)級(jí),對(duì)其處理模型并沒有特別的要求,可以根據(jù)需求靈活選擇,但在實(shí)際中多采用批處理模式。
3.大數(shù)據(jù)的基本處理流程
"數(shù)據(jù)分析師"整個(gè)大數(shù)據(jù)的處理流程可以定義為在合適工具的輔助下,對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ)。數(shù)據(jù)分析師利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來說可以分為數(shù)據(jù)抽取與集成,數(shù)據(jù)分析以及數(shù)據(jù)解釋。
四、大數(shù)據(jù)與云計(jì)算的關(guān)系
1.相同點(diǎn)。它們都是為數(shù)據(jù)存儲(chǔ)和處理服務(wù)的,都需要占用大量的存儲(chǔ)和計(jì)算資源,而且大數(shù)據(jù)用到的海量數(shù)據(jù)存儲(chǔ)技術(shù)、海量數(shù)據(jù)管理技術(shù)、MapReduce等并行處理技術(shù)也都是云計(jì)算的關(guān)鍵技術(shù)。
2.不同點(diǎn)。
2.1云計(jì)算的目的是通過互聯(lián)網(wǎng)更好地調(diào)用、擴(kuò)展和管理計(jì)算及存儲(chǔ)資源和能力,以節(jié)省企業(yè)的IT部署成本,其處理對(duì)象是IT資源、處理能力和各種應(yīng)用。云計(jì)算從根本上改變了企業(yè)的IT架構(gòu),產(chǎn)業(yè)發(fā)展的主要推動(dòng)力量是存儲(chǔ)及計(jì)算設(shè)備的生產(chǎn)廠商和擁有計(jì)算及存儲(chǔ)資源的企業(yè)。
2.2大數(shù)據(jù)的目的是充分挖掘海量數(shù)據(jù)中的信息,發(fā)現(xiàn)數(shù)據(jù)中的價(jià)值,其處理對(duì)象是各種數(shù)據(jù)。大數(shù)據(jù)使得企業(yè)從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動(dòng)”,從而改變了企業(yè)的業(yè)務(wù)架構(gòu),其直接受益者不是?IT?部門,而是業(yè)務(wù)部門或企業(yè)CEO,產(chǎn)業(yè)發(fā)展的主要推動(dòng)力量是從事數(shù)據(jù)存儲(chǔ)與處理的軟件廠商和擁有大量數(shù)據(jù)的企業(yè)。
因此,不難發(fā)現(xiàn)云計(jì)算和大數(shù)據(jù)實(shí)際上是工具與用途的關(guān)系,即云計(jì)算為大數(shù)據(jù)提供了有力的工具和途徑,大數(shù)據(jù)"數(shù)據(jù)分析師"為云計(jì)算提供了很有價(jià)值的用武之地。而且,從所使用的技術(shù)來看,大數(shù)據(jù)可以理解為云計(jì)算的延伸。
大數(shù)據(jù)若與云計(jì)算相結(jié)合,將相得益彰,互相都能發(fā)揮最大的優(yōu)勢(shì)。云計(jì)算能為大數(shù)據(jù)提供強(qiáng)大的存儲(chǔ)和計(jì)算能力,更加迅速地處理大數(shù)據(jù)的豐富信息,并更方便地提供服務(wù);而來自大數(shù)據(jù)的業(yè)務(wù)需求,能為云計(jì)算的落地找到更多更好的實(shí)際應(yīng)用。當(dāng)然大數(shù)據(jù)的出現(xiàn)也使得云計(jì)算會(huì)面臨新的考驗(yàn)。數(shù)據(jù)分析師培訓(xùn)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03