
玩轉(zhuǎn)大數(shù)據(jù),你需要了解這8種項(xiàng)目類型!
在過(guò)去的 12 個(gè)月里,筆者一直在大數(shù)據(jù)的戰(zhàn)壕里挖掘。好吧,其實(shí)大部分時(shí)間我只是坐在比我更聰明的人旁邊,看他們?cè)趺丛趹?zhàn)壕里挖掘數(shù)據(jù),再把所做的事情進(jìn)行簡(jiǎn)化以上報(bào)給管理層。
很少有真正獨(dú)具一格的 IT 項(xiàng)目,那些聽(tīng)起來(lái)比較特別的項(xiàng)目最終也只是大同小異。不過(guò)你們今天有眼福了,因?yàn)槲覜Q定出來(lái)冒個(gè)泡兒,跟大家分享一下過(guò)去 12 個(gè)月里接觸到的8大項(xiàng)目類型。
那些做電子商務(wù)的公司想當(dāng)然地認(rèn)為,裝幾個(gè)工具就能掌握網(wǎng)頁(yè)訪客從銷售到付款的成交情況。但是很多公司處理的數(shù)據(jù)集遠(yuǎn)遠(yuǎn)不止網(wǎng)頁(yè)成交率,而且這些數(shù)據(jù)集主要來(lái)自經(jīng)銷商。
每個(gè)經(jīng)銷商提供格式各異的不同數(shù)據(jù)集。當(dāng)然,從根本上說(shuō),這是一個(gè)帶有BI/可視化前端的核心ETL/數(shù)據(jù)整合項(xiàng)目。但是,對(duì)許多公司而言,要真正了解交易的生命周期(從開(kāi)始、進(jìn)展到結(jié)束)比想象中要困難。你需要整合大量的 CRM 數(shù)據(jù)、網(wǎng)站分析數(shù)據(jù)和財(cái)務(wù)數(shù)據(jù),最后才能肯定地說(shuō):“是的,PPC(點(diǎn)擊付費(fèi)廣告)帶來(lái)了交易,但是40%的客戶連第一筆交易都未能成功走到付款,那么……”
很多公司都想知道你在做什么,然后再根據(jù)你的活動(dòng)情況向你推銷產(chǎn)品。例如,你手機(jī)上可能裝了一個(gè)提供遙測(cè)數(shù)據(jù)的 app,這樣公司就會(huì)知道你在商場(chǎng)的哪個(gè)位置。憑借這些大數(shù)據(jù),他們就能預(yù)測(cè)你在任意時(shí)刻的購(gòu)買(mǎi)需求。
營(yíng)銷人員做事講求效益,他們想知道具體要做哪些事情,以及這些事情對(duì)KPI有何影響。從本質(zhì)上說(shuō),這又是一個(gè) BI 項(xiàng)目,而且往往涉及到大量的變更數(shù)據(jù)捕獲(CDC)和 ETL 數(shù)據(jù)整合工作。他們測(cè)量的實(shí)際KPI變化很大,有時(shí)還涉及到 Kylin 或 Greenplum 等工具中的數(shù)據(jù)庫(kù)。至于其他情況,可能屬于下一個(gè)類別——社交媒體。
通常,公眾會(huì)在公開(kāi)或半公開(kāi)的社交網(wǎng)絡(luò)上談?wù)撃悖ɑ蚰愕墓荆T谶@些地方你可以獲取很多有用的信息,比如大家怎么看待你的品牌,你的營(yíng)銷活動(dòng)是否有成效。既然美國(guó)地震勘探局可以通過(guò) Twitter 探測(cè)到地震和震級(jí),那么你也可以通過(guò)這樣的平臺(tái)了解剛推出的廣告活動(dòng)效果如何。隨著越來(lái)越多的專業(yè)社交平臺(tái)出現(xiàn),對(duì)于某些垂直行業(yè)而言,其數(shù)據(jù)采集范圍遠(yuǎn)遠(yuǎn)不止 Twitter 和 Facebook。
無(wú)論是為了入侵檢測(cè)還是應(yīng)對(duì)安全審計(jì),你都需要捕獲并收集日志文件并使其可檢索。在這一領(lǐng)域,Splunk 無(wú)疑大賺了一筆。當(dāng)然,在大數(shù)據(jù)中還有其他更靈活的選擇。
現(xiàn)在已經(jīng)不是 Teradata 獨(dú)統(tǒng)天下的時(shí)代了,大數(shù)據(jù)正在從邊緣向核心發(fā)展,而且 Apache Kylin 的數(shù)據(jù)庫(kù)已對(duì)所有人開(kāi)放。得益于 Impala、HAWQ 和 Greenplum,MPP 分布式系統(tǒng)的地位也更加重要。那些價(jià)格昂貴、功能單一而且還不能兼容其他數(shù)據(jù)分析的工具,其發(fā)展空間越來(lái)越小——更別說(shuō)是那些只能依靠某單一供應(yīng)商的私有云。
ETL (Extract-Transform-Load)可能依舊是如今最常見(jiàn)的Hadoop工作負(fù)載——而且我敢說(shuō),ETL 是適用于 Spark 的最常見(jiàn)的非流式工作負(fù)載。順便提一下,現(xiàn)在已經(jīng)有上百個(gè)創(chuàng)業(yè)公司冒出來(lái)說(shuō)自己能夠處理這種任務(wù)了。
不管是電網(wǎng)、制造業(yè)、水泵,還是老司機(jī)開(kāi)的車(chē),都在向我們傳遞信息。這些信息都需要捕獲。甚至有些人已經(jīng)弄清了該如何處理這些數(shù)據(jù)。但是,及時(shí)捕獲數(shù)據(jù)才是最重要的一步,因?yàn)楹芏嗳硕加X(jué)得從技術(shù)上來(lái)說(shuō)捕獲數(shù)據(jù)并不那么容易。
此外,筆者還經(jīng)常督促大家在大數(shù)據(jù)項(xiàng)目初期就要考慮數(shù)據(jù)分析問(wèn)題。為什么呢?因?yàn)轭A(yù)先設(shè)計(jì)并確定好數(shù)據(jù)流的大小,遠(yuǎn)比數(shù)據(jù)已經(jīng)準(zhǔn)備好時(shí)再重新考慮整體布局要容易得多。但是有時(shí)候還是得細(xì)細(xì)咀嚼,做最好的打算。
近一年來(lái),筆者見(jiàn)過(guò)不少其他項(xiàng)目類型,但是大多數(shù)用例都屬于以上八種之一。不知各位老司機(jī)是否還有補(bǔ)充?
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開(kāi)啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書(shū)) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04