
架構大數(shù)據(jù)分析應用/典型分布式大數(shù)據(jù)架構的基礎模型
這是《Scalable Big Data Architecture》一書的翻譯筆記和讀書札記,使用了原書中的大量圖片,融入了自己的部分觀點 ….典型使用場景….大數(shù)據(jù)生態(tài)系統(tǒng)……..
數(shù)據(jù)管理比以往更加復雜,到處都是大數(shù)據(jù),包括每個人的想法以及不同的形式:廣告 , 社交圖譜,信息流 ,推薦 ,市場, 健康, 安全, 政府等等.過去的三年里,成千上萬的技術必須處理匯合在一起的大數(shù)據(jù)獲取,管理 和分析; 技術選型對IT部門來說是一件艱巨的任務,因為在大多數(shù)時間里沒有一個綜合的方法來用于選型.
當自己面臨選擇的時候,通常會問如下的問題: 什么時候需要考慮在IT系統(tǒng)中使用大數(shù)據(jù)? 準備好使用了么? 從哪里開始? 感覺大數(shù)據(jù)只是一種市場趨勢,我還是應該去做么?這些問題縈繞著CIO和CTO們,當決定部署一個全局化分布式大數(shù)據(jù)架構時,可能會把企業(yè)置于危險之中。
本章目的時定義大數(shù)據(jù)的表征—換句話說,就是什么時候需要考慮將大數(shù)據(jù)放入架構。 但是,也指出了各種大數(shù)據(jù)技術的區(qū)別,能夠理解在何種情況使用哪種技術。
最后, 基于真實世界的例子,構建了典型分布式大數(shù)據(jù)架構的基礎模型。
定義大數(shù)據(jù)表征
基于不同的需要,可能選擇開始大數(shù)據(jù)項目s: 因為所需處理的數(shù)據(jù)容量, 因為系統(tǒng)中數(shù)據(jù)結構的多樣性, 因為擴展性問題, 或者因為需要削減數(shù)據(jù)處理的成本。 本節(jié)中,將看到怎樣的征兆意味著一個團隊需要開始一個大數(shù)據(jù)項目了。
數(shù)據(jù)大小哪些事
使人們開始考慮大數(shù)據(jù)的兩個主要領域是何時出現(xiàn)了與數(shù)據(jù)大小和容量有關的問題。盡管大多數(shù)時間這些問題是考慮大數(shù)據(jù)的合情合理的原因,但今天而已,這并不是唯一的原因。
有其他的表征—例如數(shù)據(jù)的類型. 如何在傳統(tǒng)數(shù)據(jù)存儲中管理不斷增加的各種各樣的數(shù)據(jù)類型, 如SQL數(shù)據(jù)庫, 還期望象建表那樣的結構化么? 不增加靈活性是不可行的,當出現(xiàn)新的數(shù)據(jù)結構是需要技術層面的無縫處理。當討論數(shù)據(jù)類型是,需要想象非結構化數(shù)據(jù),圖數(shù)據(jù),圖片,視頻,語音等等。
不但要很好的存儲非結構化數(shù)據(jù),而且最好是得到一些他們之外的東西。另一表征來自于這一承諾: 大數(shù)據(jù)也可以從大容量的各種數(shù)據(jù)中提取增值信息.若干年前,對于大量讀多于寫的操作,通用的緩存或數(shù)據(jù)庫隊友每周的ETL (extract, transform,load) 處理是足夠的。如今不再是這樣的趨勢?,F(xiàn)在,需要一個架構具備長時間處理和準實時數(shù)據(jù)處理的能力。這一架構是分布式的,而不是依賴于高性能且價格高昂的商用機,取而代之的是,高可用,性能驅動和廉價技術所賦予的靈活性。
當下,如何充分利用增值數(shù)據(jù)以及如何能夠原生地搜索到它們呢?為了回答這一問題,再次考慮傳統(tǒng)存儲中為了加速查詢而創(chuàng)建的索引。如果為了復雜查詢而索引上百列而且包含了主鍵的不確定性,會是什么樣子?不希望在一個基礎SQL 數(shù)據(jù)庫中做這些;取而代之的是,需要考慮按照特殊需要而使用一個 NoSQL存儲. 所以,簡單回顧一下主要路徑:數(shù)據(jù)獲取,結構化,可視化這些真正數(shù)據(jù)管理的場景,顯而易見,數(shù)據(jù)大小不再是主要的考量因素。
典型的商務使用場景
除了技術和架構考慮,需要面對典型大數(shù)據(jù)用例的使用場景。它們部分和特殊的工業(yè)領域相關; 另外的部分可能適應于各種領域。這些考慮一般都是基于分析應用的日志,例如web訪問日志,應用服務器日志,和數(shù)據(jù)庫日志,但是也可以基于各種其他的數(shù)據(jù)源例如社交網(wǎng)絡數(shù)據(jù)。當面對這些使用場景的時候,如果希望隨著商務的增長而彈性擴展,就需要考慮一個分布式的大數(shù)據(jù)架構。
客戶行為分析
感知客戶, 或者叫做 “360-度客戶視角”可能是最流行的大數(shù)據(jù)使用場景。客戶視角通常用于電子商務網(wǎng)站以及開始于一個非結構化的點擊流—換而言之, 由一個訪客執(zhí)行的主動點擊和被動的網(wǎng)站導航操作組成。通過計算和分析點擊量和面向產(chǎn)品或廣告的印象,可以依賴行為而適配訪客的用戶體驗, 目標是得到優(yōu)化漏斗轉換的見解。
情緒分析
公司關注的是其在社交網(wǎng)絡上所被感知的形象和聲譽; 把可能使他們聲名狼藉的負面事件最小化并充分利用正面事件. 通過準實時爬下大量的社交數(shù)據(jù),可以提取出社交社區(qū)中關于品牌的感受和情緒,從而找到影響用戶并練習他們,改變并強化與這些用戶的交互。
CRM Onboarding
基于訪客的社交行為,可以將客戶的行為分析和數(shù)據(jù)的情感分析結合在一起。公司希望將這些在線數(shù)據(jù)源和已經(jīng)存在的離線數(shù)據(jù)結合在一起,這叫做 CRM (customer relationship management) onboarding, 以便于得到更好和更準確的客戶定位. 進而,公司能夠充分利用這一定位,從而建立更好的目標系統(tǒng)使市場活動的效益最大化。
預測
從數(shù)據(jù)中學習在過去幾年已經(jīng)成為主要的大數(shù)據(jù)趨勢?;诖髷?shù)據(jù)的預測在許多業(yè)界是非常有效的, 例如電信界, 這里可以預測大眾化的路由日志分析. 每一次在設備上發(fā)生了問題, 公司可以預測它并避免宕機時間或利潤丟失。
當結合以上的使用場景的時候,根據(jù)用戶的整體行為,可以使用一個預測型架構來誘惑產(chǎn)品目錄的選擇和價格。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03