
大數(shù)據(jù)和云計算關系
關于大數(shù)據(jù)和云計算的關系人們通常會有誤解。而且也會把它們混起來說,分別做一句話直白解釋就是:云計算就是硬件資源的虛擬化;大數(shù)據(jù)就是海量數(shù)據(jù)的高效處理。
雖然上面的一句話解釋不是非常的貼切,但是可以幫助你簡單的理解二者的區(qū)別。另外,如果做一個更形象的解釋,云計算相當于我們的計算機和操作系統(tǒng),將大量的硬件資源虛擬化之后再進行分配使用,在云計算領域目前的老大應該算是Amazon,可以說為云計算提供了商業(yè)化的標準,另外值得關注的還有VMware(其實從這一點可以幫助你理解云計算和虛擬化的關系),開源的云平臺最有活力的就是Openstack了;
大數(shù)據(jù)相當于海量數(shù)據(jù)的“數(shù)據(jù)庫”,而且通觀大數(shù)據(jù)領域的發(fā)展也能看出,當前的大數(shù)據(jù)處理一直在向著近似于傳統(tǒng)數(shù)據(jù)庫體驗的方向發(fā)展,Hadoop的產(chǎn)生使我們能夠用普通機器建立穩(wěn)定的處理TB級數(shù)據(jù)的集群,把傳統(tǒng)而昂貴的并行計算等概念一下就拉到了我們的面前,但是其不適合數(shù)據(jù)分析人員使用(因為MapReduce開發(fā)復雜),所以PigLatin和Hive出現(xiàn)了(分別是Yahoo!和facebook發(fā)起的項目,說到這補充一下,在大數(shù)據(jù)領域Google、facebook、twitter等前沿的互聯(lián)網(wǎng)公司作出了很積極和強大的貢獻),為我們帶來了類SQL的操作,到這里操作方式像SQL了,但是處理效率很慢,絕對和傳統(tǒng)的數(shù)據(jù)庫的處理效率有天壤之別,所以人們又在想怎樣在大數(shù)據(jù)處理上不只是操作方式類SQL,而處理速度也能“類SQL”,Google為我們帶來了Dremel/PowerDrill等技術,Cloudera(Hadoop商業(yè)化最強的公司,Hadoop之父cutting就在這里負責技術領導)的Impala也出現(xiàn)了。
整體來看,未來的趨勢是,云計算作為計算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢是,實時交互式的查詢效率和分析能力,借用Google一篇技術論文中的話,“動一下鼠標就可以在秒級操作PB級別的數(shù)據(jù)”難道不讓人興奮嗎?(田原)
在談大數(shù)據(jù)的時候,首先談到的就是大數(shù)據(jù)的4V特性,即類型復雜,海量,快速和價值。IBM原來談大數(shù)據(jù)的時候談3V,沒有價值這個V。而實際我們來看4V更加恰當,價值才是大數(shù)據(jù)問題解決的最終目標,其它3V都是為價值目標服務。在有了4V的概念后,就很容易簡化的來理解大數(shù)據(jù)的核心,即大數(shù)據(jù)的總體架構包括三層,數(shù)據(jù)存儲,數(shù)據(jù)處理和數(shù)據(jù)分析。類型復雜和海量由數(shù)據(jù)存儲層解決,快速和時效性要求由數(shù)據(jù)處理層解決,價值由數(shù)據(jù)分析層解決。
數(shù)據(jù)先要通過存儲層存儲下來,然后根據(jù)數(shù)據(jù)需求和目標來建立相應的數(shù)據(jù)模型和數(shù)據(jù)分析指標體系對數(shù)據(jù)進行分析產(chǎn)生價值。而中間的時效性又通過中間數(shù)據(jù)處理層提供的強大的并行計算和分布式計算能力來完成。三層相互配合,讓大數(shù)據(jù)最終產(chǎn)生價值。
數(shù)據(jù)有很多分法,有結構化,半結構化,非結構化;也有元數(shù)據(jù),主數(shù)據(jù),業(yè)務數(shù)據(jù);還可以分為GIS,視頻,文件,語音,業(yè)務交易類各種數(shù)據(jù)。傳統(tǒng)的結構化數(shù)據(jù)庫已經(jīng)無法滿足數(shù)據(jù)多樣性的存儲要求,因此在RDBMS基礎上增加了兩種類型,一種是hdfs可以直接應用于非結構化文件存儲,一種是nosql類數(shù)據(jù)庫,可以應用于結構化和半結構化數(shù)據(jù)存儲。
從存儲層的搭建來說,關系型數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫和hdfs分布式文件系統(tǒng)三種存儲方式都需要。業(yè)務應用根據(jù)實際的情況選擇不同的存儲模式,但是為了業(yè)務的存儲和讀取方便性,我們可以對存儲層進一步的封裝,形成一個統(tǒng)一的共享存儲服務層,簡化這種操作。從用戶來講并不關心底層存儲細節(jié),只關心數(shù)據(jù)的存儲和讀取的方便性,通過共享數(shù)據(jù)存儲層可以實現(xiàn)在存儲上的應用和存儲基礎設置的徹底解耦。
數(shù)據(jù)處理層核心解決問題在于數(shù)據(jù)存儲出現(xiàn)分布式后帶來的數(shù)據(jù)處理上的復雜度,海量存儲后帶來了數(shù)據(jù)處理上的時效性要求,這些都是數(shù)據(jù)處理層要解決的問題。
在傳統(tǒng)的云相關技術架構上,可以將hive,pig和hadoop-mapreduce框架相關的技術內(nèi)容全部劃入到數(shù)據(jù)處理層的能力。原來我思考的是將hive劃入到數(shù)據(jù)分析層能力不合適,因為hive重點還是在真正處理下的復雜查詢的拆分,查詢結果的重新聚合,而mapreduce本身又實現(xiàn)真正的分布式處理能力。
mapreduce只是實現(xiàn)了一個分布式計算的框架和邏輯,而真正的分析需求的拆分,分析結果的匯總和合并還是需要hive層的能力整合。最終的目的很簡單,即支持分布式架構下的時效性要求。
數(shù)據(jù)分析層
最后回到分析層,分析層重點是真正挖掘大數(shù)據(jù)的價值所在,而價值的挖掘核心又在于數(shù)據(jù)分析和挖掘。那么數(shù)據(jù)分析層核心仍然在于傳統(tǒng)的BI分析的內(nèi)容。包括數(shù)據(jù)的維度分析,數(shù)據(jù)的切片,數(shù)據(jù)的上鉆和下鉆,cube等。
數(shù)據(jù)分析我只關注兩個內(nèi)容,一個就是傳統(tǒng)數(shù)據(jù)倉庫下的數(shù)據(jù)建模,在該數(shù)據(jù)模型下需要支持上面各種分析方法和分析策略;其次是根據(jù)業(yè)務目標和業(yè)務需求建立的KPI指標體系,對應指標體系的分析模型和分析方法。解決這兩個問題基本解決數(shù)據(jù)分析的問題。
傳統(tǒng)的BI分析通過大量的ETL數(shù)據(jù)抽取和集中化,形成一個完整的數(shù)據(jù)倉庫,而基于大數(shù)據(jù)的BI分析,可能并沒有一個集中化的數(shù)據(jù)倉庫,或者將數(shù)據(jù)倉庫本身也是分布式的了,BI分析的基本方法和思路并沒有變化,但是落地到執(zhí)行的數(shù)據(jù)存儲和數(shù)據(jù)處理方法卻發(fā)生了大變化。
談了這么多,核心還是想說明大數(shù)據(jù)兩大核心為云技術和BI,離開云技術大數(shù)據(jù)沒有根基和落地可能,離開BI和價值,大數(shù)據(jù)又變化為舍本逐末,丟棄關鍵目標。簡單總結就是大數(shù)據(jù)目標驅(qū)動是BI,大數(shù)據(jù)實施落地式云技術。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03