
架構(gòu)大數(shù)據(jù)分析應(yīng)用/典型分布式大數(shù)據(jù)架構(gòu)的基礎(chǔ)模型
這是《Scalable Big Data Architecture》一書的翻譯筆記和讀書札記,使用了原書中的大量圖片,融入了自己的部分觀點(diǎn) ….典型使用場景….大數(shù)據(jù)生態(tài)系統(tǒng)……..
數(shù)據(jù)管理比以往更加復(fù)雜,到處都是大數(shù)據(jù),包括每個(gè)人的想法以及不同的形式:廣告 , 社交圖譜,信息流 ,推薦 ,市場, 健康, 安全, 政府等等.過去的三年里,成千上萬的技術(shù)必須處理匯合在一起的大數(shù)據(jù)獲取,管理 和分析; 技術(shù)選型對IT部門來說是一件艱巨的任務(wù),因?yàn)樵诖蠖鄶?shù)時(shí)間里沒有一個(gè)綜合的方法來用于選型.
當(dāng)自己面臨選擇的時(shí)候,通常會(huì)問如下的問題: 什么時(shí)候需要考慮在IT系統(tǒng)中使用大數(shù)據(jù)? 準(zhǔn)備好使用了么? 從哪里開始? 感覺大數(shù)據(jù)只是一種市場趨勢,我還是應(yīng)該去做么?這些問題縈繞著CIO和CTO們,當(dāng)決定部署一個(gè)全局化分布式大數(shù)據(jù)架構(gòu)時(shí),可能會(huì)把企業(yè)置于危險(xiǎn)之中。
本章目的時(shí)定義大數(shù)據(jù)的表征—換句話說,就是什么時(shí)候需要考慮將大數(shù)據(jù)放入架構(gòu)。 但是,也指出了各種大數(shù)據(jù)技術(shù)的區(qū)別,能夠理解在何種情況使用哪種技術(shù)。
最后, 基于真實(shí)世界的例子,構(gòu)建了典型分布式大數(shù)據(jù)架構(gòu)的基礎(chǔ)模型。
定義大數(shù)據(jù)表征
基于不同的需要,可能選擇開始大數(shù)據(jù)項(xiàng)目s: 因?yàn)樗杼幚淼臄?shù)據(jù)容量, 因?yàn)橄到y(tǒng)中數(shù)據(jù)結(jié)構(gòu)的多樣性, 因?yàn)閿U(kuò)展性問題, 或者因?yàn)樾枰鳒p數(shù)據(jù)處理的成本。 本節(jié)中,將看到怎樣的征兆意味著一個(gè)團(tuán)隊(duì)需要開始一個(gè)大數(shù)據(jù)項(xiàng)目了。
數(shù)據(jù)大小哪些事
使人們開始考慮大數(shù)據(jù)的兩個(gè)主要領(lǐng)域是何時(shí)出現(xiàn)了與數(shù)據(jù)大小和容量有關(guān)的問題。盡管大多數(shù)時(shí)間這些問題是考慮大數(shù)據(jù)的合情合理的原因,但今天而已,這并不是唯一的原因。
有其他的表征—例如數(shù)據(jù)的類型. 如何在傳統(tǒng)數(shù)據(jù)存儲(chǔ)中管理不斷增加的各種各樣的數(shù)據(jù)類型, 如SQL數(shù)據(jù)庫, 還期望象建表那樣的結(jié)構(gòu)化么? 不增加靈活性是不可行的,當(dāng)出現(xiàn)新的數(shù)據(jù)結(jié)構(gòu)是需要技術(shù)層面的無縫處理。當(dāng)討論數(shù)據(jù)類型是,需要想象非結(jié)構(gòu)化數(shù)據(jù),圖數(shù)據(jù),圖片,視頻,語音等等。
不但要很好的存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),而且最好是得到一些他們之外的東西。另一表征來自于這一承諾: 大數(shù)據(jù)也可以從大容量的各種數(shù)據(jù)中提取增值信息.若干年前,對于大量讀多于寫的操作,通用的緩存或數(shù)據(jù)庫隊(duì)友每周的ETL (extract, transform,load) 處理是足夠的。如今不再是這樣的趨勢?,F(xiàn)在,需要一個(gè)架構(gòu)具備長時(shí)間處理和準(zhǔn)實(shí)時(shí)數(shù)據(jù)處理的能力。這一架構(gòu)是分布式的,而不是依賴于高性能且價(jià)格高昂的商用機(jī),取而代之的是,高可用,性能驅(qū)動(dòng)和廉價(jià)技術(shù)所賦予的靈活性。
當(dāng)下,如何充分利用增值數(shù)據(jù)以及如何能夠原生地搜索到它們呢?為了回答這一問題,再次考慮傳統(tǒng)存儲(chǔ)中為了加速查詢而創(chuàng)建的索引。如果為了復(fù)雜查詢而索引上百列而且包含了主鍵的不確定性,會(huì)是什么樣子?不希望在一個(gè)基礎(chǔ)SQL 數(shù)據(jù)庫中做這些;取而代之的是,需要考慮按照特殊需要而使用一個(gè) NoSQL存儲(chǔ). 所以,簡單回顧一下主要路徑:數(shù)據(jù)獲取,結(jié)構(gòu)化,可視化這些真正數(shù)據(jù)管理的場景,顯而易見,數(shù)據(jù)大小不再是主要的考量因素。
典型的商務(wù)使用場景
除了技術(shù)和架構(gòu)考慮,需要面對典型大數(shù)據(jù)用例的使用場景。它們部分和特殊的工業(yè)領(lǐng)域相關(guān); 另外的部分可能適應(yīng)于各種領(lǐng)域。這些考慮一般都是基于分析應(yīng)用的日志,例如web訪問日志,應(yīng)用服務(wù)器日志,和數(shù)據(jù)庫日志,但是也可以基于各種其他的數(shù)據(jù)源例如社交網(wǎng)絡(luò)數(shù)據(jù)。當(dāng)面對這些使用場景的時(shí)候,如果希望隨著商務(wù)的增長而彈性擴(kuò)展,就需要考慮一個(gè)分布式的大數(shù)據(jù)架構(gòu)。
客戶行為分析
感知客戶, 或者叫做 “360-度客戶視角”可能是最流行的大數(shù)據(jù)使用場景??蛻粢暯峭ǔS糜陔娮由虅?wù)網(wǎng)站以及開始于一個(gè)非結(jié)構(gòu)化的點(diǎn)擊流—換而言之, 由一個(gè)訪客執(zhí)行的主動(dòng)點(diǎn)擊和被動(dòng)的網(wǎng)站導(dǎo)航操作組成。通過計(jì)算和分析點(diǎn)擊量和面向產(chǎn)品或廣告的印象,可以依賴行為而適配訪客的用戶體驗(yàn), 目標(biāo)是得到優(yōu)化漏斗轉(zhuǎn)換的見解。
情緒分析
公司關(guān)注的是其在社交網(wǎng)絡(luò)上所被感知的形象和聲譽(yù); 把可能使他們聲名狼藉的負(fù)面事件最小化并充分利用正面事件. 通過準(zhǔn)實(shí)時(shí)爬下大量的社交數(shù)據(jù),可以提取出社交社區(qū)中關(guān)于品牌的感受和情緒,從而找到影響用戶并練習(xí)他們,改變并強(qiáng)化與這些用戶的交互。
CRM Onboarding
基于訪客的社交行為,可以將客戶的行為分析和數(shù)據(jù)的情感分析結(jié)合在一起。公司希望將這些在線數(shù)據(jù)源和已經(jīng)存在的離線數(shù)據(jù)結(jié)合在一起,這叫做 CRM (customer relationship management) onboarding, 以便于得到更好和更準(zhǔn)確的客戶定位. 進(jìn)而,公司能夠充分利用這一定位,從而建立更好的目標(biāo)系統(tǒng)使市場活動(dòng)的效益最大化。
預(yù)測
從數(shù)據(jù)中學(xué)習(xí)在過去幾年已經(jīng)成為主要的大數(shù)據(jù)趨勢。基于大數(shù)據(jù)的預(yù)測在許多業(yè)界是非常有效的, 例如電信界, 這里可以預(yù)測大眾化的路由日志分析. 每一次在設(shè)備上發(fā)生了問題, 公司可以預(yù)測它并避免宕機(jī)時(shí)間或利潤丟失。
當(dāng)結(jié)合以上的使用場景的時(shí)候,根據(jù)用戶的整體行為,可以使用一個(gè)預(yù)測型架構(gòu)來誘惑產(chǎn)品目錄的選擇和價(jià)格。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03