
當(dāng)你學(xué)會抄菜的時候,你就學(xué)會了大數(shù)據(jù)
最近在學(xué)習(xí)數(shù)倉跟BI,突然發(fā)現(xiàn),結(jié)合自己所學(xué)會抄的菜。試著把學(xué)過的大數(shù)據(jù)重新理解一番,希望各位都能來一起討論,共同進(jìn)步。
走進(jìn)廚房
走進(jìn)廚房后,相信大家會看到各種鍋碗瓢盆,案板,切菜刀,調(diào)料,櫥柜,水池...........而這些就相當(dāng)于是大數(shù)據(jù)的架構(gòu)。
其中櫥柜,相當(dāng)于是Hadoop。櫥柜可以儲存各種食材,而Hadoop可以存儲各種不同類的數(shù)據(jù)(結(jié)構(gòu)化與非結(jié)構(gòu)化)。而櫥柜可以存放不同食材,比如不規(guī)整的豆腐塊,大冬瓜,土豆....還有一些規(guī)整的食材,比如大米,小米,綠豆........規(guī)整的食材與不規(guī)整的食材的區(qū)別,各家有各家不同的規(guī)定,而一般的規(guī)定就是規(guī)格的食材要用袋子把它們裝起來。這里就相當(dāng)于是大數(shù)據(jù)里的數(shù)據(jù)整理流程。而這些半規(guī)整的食材要放到一個個小袋子里,比如說,淀粉,姜粉,蒜泥.....用袋子或者盒子把它們裝好,放在相應(yīng)櫥柜的地方,就相當(dāng)于我們大數(shù)據(jù)里說的ETL(抽取,封裝,加載),以備后用。
而不同廠家的櫥柜又會有不同的格子劃分及存儲區(qū),比如:歐派,宜家的櫥柜就會劃分出很多小的分區(qū)來裝不同的東西。而這一塊就相當(dāng)于HBase,灶臺下邊有專門用于涼碗的,還有抽油煙機(jī)旁邊專門用于放刀具的區(qū)域,還有專門用于放各種鍋的區(qū)域。而當(dāng)HBase劃分的好的時候,就對上層的MapReduce有很大的幫助,因?yàn)槟愀鱾€區(qū)域規(guī)劃的越好,當(dāng)你開始抄菜的時候,取用各種餐具的時候就會更加的得心用手。
至于上邊的Mahout,Pig,Hive就相當(dāng)于你如何在櫥柜中找到你相應(yīng)的食材的過程,比如說,你要抄西紅柿雞蛋,你要找雞蛋跟西紅柿...........再往上走就是一個對廚房的整體管理了。你做過的哪些菜,或者你想按照某個食譜來做菜,你就要有一個本子寫上你每次做菜的步驟,這個就相當(dāng)于是FlumeL,而Sqoop就相當(dāng)于蘿卜擦,你想吃蘿卜絲,你就要用工具把蘿卜切成絲才可以,這里,用刀具可以,用蘿卜擦?xí)咝А?br />
再來說說Zookeeper吧!它就相當(dāng)于把你經(jīng)常用的幾項(xiàng)工具放到離你做菜最近的一個櫥柜中。方便管理這些工具。
好了,說完了Hadoop,再來說一說Spark.它跟櫥柜的唯一不同就是:櫥柜是給你全部安裝固定好了的,而Spark這種櫥柜是可以移動的櫥柜,同時對于你經(jīng)常用的工具,可以進(jìn)行優(yōu)先排序。讓你更快的對食材進(jìn)行加工。剛開始,你做完一道菜,要半個小時多,而當(dāng)你熟練之后,加之Spark移動櫥柜+優(yōu)先推送食材(內(nèi)存計算+可迭代算法),你可以在5分鐘內(nèi)就做完這道菜。
加工食材
實(shí)際上,我們食材的儲存過程就相當(dāng)于是一個數(shù)倉的建立過程,而在一個數(shù)倉的建立過程中。最重要的莫過于區(qū)分不同維度。比如在大數(shù)據(jù)里的Key+Value,Big list,實(shí)際上都是提供一種基于可擴(kuò)展的列值存儲。而在數(shù)據(jù)可視化中,數(shù)據(jù)多維分維里,也是強(qiáng)調(diào)數(shù)據(jù)的不同維度的區(qū)分。這里我們就以食材的區(qū)分為例來說明。
首先,廚房里的食材維度可以大致分析:蔬菜維度,禽肉維度,米面維度............不同的維度決定了你對食物的理解程度,比如:你可以把糯米放在米面維度,也可以放在糕點(diǎn)維度。所以數(shù)據(jù)的不同維度也取決于你對食材的功能及使用場景。再比如:把你香茹切的很小,曬干,然后碾成粉,要這些香茹粉就會從蔬菜維度進(jìn)入到調(diào)料維度。
當(dāng)我們明白了食材維度的這個概念之后,我們就要開始我們的加工了。是先抄,還是先炸,還是先熱水湯一下,都是對食材的一種加工。這里就相當(dāng)于對初始數(shù)據(jù)進(jìn)行相應(yīng)的整形。由于要用到不同的廚具,就涉及到前邊講的走進(jìn)廚房的細(xì)節(jié)的。在大數(shù)據(jù)里,可以用不同的組件對原始數(shù)據(jù)進(jìn)行處理。而在廚房,可以用不同的廚具對食材進(jìn)行處理。比如:蒸饅頭,可以用抄鍋來蒸,同時可以用鋼精鍋來蒸。雖然都能達(dá)到能吃的地步。但是所用的時間及口感不同。這些也就相當(dāng)于大數(shù)據(jù)里各種不同組件之間的動行效果。
最后,先感謝下我現(xiàn)在的公司,每個月不定期給我們發(fā)菜,同時也感謝下老婆,教會了我抄各種菜。最后,附一張我抄好的菜吧(先給它起一個響亮的名字:亂棍打死豬八戒!undefined )!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03