
常見的七種Hadoop和Spark項目案例
如果你的Hadoop項目將有新的突破,那么它必定與下邊介紹的七種常見項目很相像。
有一句古老的格言是這樣說的,如果你向某人提供你的全部支持和金融支持去做一些不同的和創(chuàng)新的事情,他們最終卻會做別人正在做的事情。如比較火爆的Hadoop、Spark和Storm,每個人都認為他們正在做一些與這些新的大數(shù)據(jù)技術(shù)相關的事情,但它不需要很長的時間遇到相同的模式。具體的實施可能有所不同,但根據(jù)我的經(jīng)驗,它們是最常見的七種項目。
項目一:數(shù)據(jù)整合
稱之為“企業(yè)級數(shù)據(jù)中心”或“數(shù)據(jù)湖”,這個想法是你有不同的數(shù)據(jù)源,你想對它們進行數(shù)據(jù)分析。這類項目包括從所有來源獲得數(shù)據(jù)源(實時或批處理)并且把它們存儲在hadoop中。有時,這是成為一個“數(shù)據(jù)驅(qū)動的公司”的第一步;有時,或許你僅僅需要一份漂亮的報告?!捌髽I(yè)級數(shù)據(jù)中心”通常由HDFS文件系統(tǒng)和HIVE或IMPALA中的表組成。未來,HBase和Phoenix在大數(shù)據(jù)整合方面將大展拳腳,打開一個新的局面,創(chuàng)建出全新的數(shù)據(jù)美麗新世界。
銷售人員喜歡說“讀模式”,但事實上,要取得成功,你必須清楚的了解自己的用例將是什么(Hive模式不會看起來與你在企業(yè)數(shù)據(jù)倉庫中所做的不一樣)。真實的原因是一個數(shù)據(jù)湖比Teradata和Netezza公司有更強的水平擴展性和低得多的成本。許多人在做前端分析時使用Tableau和Excel。許多復雜的公司以“數(shù)據(jù)科學家”用Zeppelin或IPython筆記本作為前端。
項目二:專業(yè)分析
許多數(shù)據(jù)整合項目實際上是從你特殊的需求和某一數(shù)據(jù)集系統(tǒng)的分析開始的。這些往往是令人難以置信的特定領域,如在銀行領域的流動性風險/蒙特卡羅模擬分析。在過去,這種專業(yè)的分析依賴于過時的,專有的軟件包,無法擴大數(shù)據(jù)的規(guī)模經(jīng)常遭受一個有限的功能集(大部分是因為軟件廠商不可能像專業(yè)機構(gòu)那樣了解的那么多)。
在Hadoop和Spark的世界,看看這些系統(tǒng)大致相同的數(shù)據(jù)整合系統(tǒng),但往往有更多的HBase,定制非SQL代碼,和更少的數(shù)據(jù)來源(如果不是唯一的)。他們越來越多地以Spark為基礎。
項目三:Hadoop作為一種服務
在“專業(yè)分析”項目的任何大型組織(諷刺的是,一個或兩個“數(shù)據(jù)整理”項目)他們會不可避免地開始感覺“快樂”(即,疼痛)管理幾個不同配置的Hadoop集群,有時從不同的供應商。接下來,他們會說,“也許我們應該整合這些資源池,”而不是大部分時間讓大部分節(jié)點處于資源閑置狀態(tài)。它們應該組成云計算,但許多公司經(jīng)常會因為安全的原因(內(nèi)部政治和工作保護)不能或不會。這通常意味著很多Docker容器包。
我沒有使用它,但最近Bluedata(藍色數(shù)據(jù)國際中心)似乎有一個解決方案,這也會吸引小企業(yè)缺乏足夠的資金來部署Hadoop作為一種服務。
項目四:流分析
很多人會把這個“流”,但流分析是不同的,從設備流。通常,流分析是一個組織在批處理中的實時版本。以反洗錢和欺詐檢測:為什么不在交易的基礎上,抓住它發(fā)生而不是在一個周期結(jié)束?同樣的庫存管理或其他任何。
在某些情況下,這是一種新的類型的交易系統(tǒng),分析數(shù)據(jù)位的位,因為你將它并聯(lián)到一個分析系統(tǒng)中。這些系統(tǒng)證明自己如Spark或Storm與Hbase作為常用的數(shù)據(jù)存儲。請注意,流分析并不能取代所有形式的分析,對某些你從未考慮過的事情而言,你仍然希望分析歷史趨勢或看過去的數(shù)據(jù)。
項目五:復雜事件處理
在這里,我們談論的是亞秒級的實時事件處理。雖然還沒有足夠快的超低延遲(皮秒或納秒)的應用,如高端的交易系統(tǒng),你可以期待毫秒響應時間。例子包括對事物或事件的互聯(lián)網(wǎng)電信運營商處理的呼叫數(shù)據(jù)記錄的實時評價。有時,你會看到這樣的系統(tǒng)使用Spark和HBase——但他們一般落在他們的臉上,必須轉(zhuǎn)換成Storm,這是基于由LMAX交易所開發(fā)的干擾模式。
在過去,這樣的系統(tǒng)已經(jīng)基于定制的消息或高性能,從貨架上,客戶端-服務器消息產(chǎn)品-但今天的數(shù)據(jù)量太多了。我還沒有使用它,但Apex項目看起來很有前途,聲稱要比Storm快。
項目六:ETL流
有時你想捕捉流數(shù)據(jù)并把它們存儲起來。這些項目通常與1號或2號重合,但增加了各自的范圍和特點。(有些人認為他們是4號或5號,但他們實際上是在向磁盤傾倒和分析數(shù)據(jù)。),這些幾乎都是Kafka和Storm項目。Spark也使用,但沒有理由,因為你不需要在內(nèi)存分析。
項目七:更換或增加SAS
SAS是精細,是好的但SAS也很貴,我們不需要為你的數(shù)據(jù)科學家和分析師買存儲你就可以“玩”數(shù)據(jù)。此外,除SAS可以做或產(chǎn)生漂亮的圖形分析外,你還可以做一些不同的事情。這是你的“數(shù)據(jù)湖”。這里是IPython筆記本(現(xiàn)在)和Zeppelin(以后)。我們用SAS存儲結(jié)果。
當我每天看到其他不同類型的Hadoop,Spark,或Storm項目,這些都是正常的。如果你使用Hadoop,你可能了解它們。幾年前我已經(jīng)實施了這些項目中的部分案例,使用的是其它技術(shù)。
如果你是一個老前輩太害怕“大”或“做”大數(shù)據(jù)Hadoop,不要擔心。事情越變越多,但本質(zhì)保持不變。你會發(fā)現(xiàn)很多相似之處的東西你用來部署和時髦的技術(shù)都是圍繞Hadooposphere旋轉(zhuǎn)的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10