
大數(shù)據(jù)自動(dòng)分析法的崛起
十多年來(lái),我談?wù)撨^(guò)的只有三類(lèi)分析法:描述(descriptive)和預(yù)測(cè)(predictive)以及規(guī)范(prescriptive)分析。這個(gè)分析法三元組在我這里工作得非常好,很多其他人也在使用。
描述分析描述發(fā)生了什么,這類(lèi)方法通常使用簡(jiǎn)單的描述工具:頻次分布、圖表以及“中心趨向性測(cè)度”(如均值、中值)。它們只和過(guò)去有關(guān),習(xí)慣上稱(chēng)這類(lèi)分析法為“報(bào)告”,它占據(jù)了大約95%的歷史性分析活動(dòng)。
預(yù)測(cè)性分析顯而易見(jiàn)是預(yù)測(cè)未來(lái)。這類(lèi)方法使用模型描述過(guò)去的數(shù)據(jù)(遺憾的是,我們只擁有過(guò)去的數(shù)據(jù))外推(extrapolate)將來(lái)。它們很有用,正如Eric Siegel所著《預(yù)測(cè)分析法》(Predictive Analysis)中的章節(jié)標(biāo)題:去“預(yù)測(cè)誰(shuí)會(huì)點(diǎn)擊、購(gòu)買(mǎi)、撒謊或者死亡”。
有些分析家們,比如Gartner公司的分析家們,在描述和預(yù)測(cè)之間額外加入了一類(lèi)分析,并稱(chēng)之為診斷(diagnostic)分析,用以描述如何使用過(guò)去的數(shù)據(jù)創(chuàng)建模型。說(shuō)這些分析家是對(duì)的,在于這一工作是預(yù)測(cè)分析的先決條件;但有人仍對(duì)此有所爭(zhēng)論,說(shuō)它只是簡(jiǎn)單的使用統(tǒng)計(jì)模型的描述分析法。我也猶豫于在自己的工作中使用它,因?yàn)樗皇且浴?tive”結(jié)尾的單詞。
規(guī)范分析(又譯為時(shí)效分析)是告訴你“如何做”的分析方法,多年前在這里我已寫(xiě)過(guò)一些文字。這類(lèi)方法建議(通常是給一線工作者)最好的方式去處理給定情況。例如:產(chǎn)品如何定價(jià),使用哪個(gè)版本的網(wǎng)頁(yè),駕駛導(dǎo)航線路下一個(gè)轉(zhuǎn)向是什么,所有這些都是規(guī)范分析。
現(xiàn)在,是時(shí)候添加第四個(gè)類(lèi)別——自動(dòng)分析(automated analytics)。遺憾的是,無(wú)論是單詞“automated”或我所能找到的其同義詞,都不是已“-tive“結(jié)尾。或許,新單詞”automative“可能比較恰當(dāng)。無(wú)論如何,分析法正在不斷變得“自動(dòng)“起來(lái)。不同于規(guī)范分析給人某個(gè)推薦,自動(dòng)分析會(huì)基于分析結(jié)果采取行動(dòng)。它們會(huì)自動(dòng)改變?cè)诰€價(jià)格,自動(dòng)顯示最好的著陸頁(yè)(landing page),自動(dòng)確定給用戶(hù)發(fā)送什么郵件,甚至自動(dòng)駕駛車(chē)輛。
一些自動(dòng)分析已存在多年。你不會(huì)認(rèn)為航空公司會(huì)派人來(lái)審核座位價(jià)格的變化吧?這樣做需要所有雇員,甚至更多。你不會(huì)認(rèn)為銀行高級(jí)職員會(huì)審核你的信用卡或個(gè)人貸款申請(qǐng)吧?那些都是自動(dòng)的,因?yàn)殂y行高級(jí)職員深思熟慮的,是你意圖的收費(fèi)或借款是否有欺詐。如果這些不是自動(dòng)的,等到有人查看可能的欺詐交易的時(shí)候,欺詐者應(yīng)當(dāng)早已作案多起后飛到了委內(nèi)瑞拉去了。
在這個(gè)用戶(hù)期望實(shí)時(shí)響應(yīng)的世界,自動(dòng)分析日趨必要。在現(xiàn)實(shí)世界中,每個(gè)市場(chǎng)促銷(xiāo)都應(yīng)該是量身定制和個(gè)性化的,數(shù)據(jù)無(wú)處不在并且需要被分析后使其有用。我們確實(shí)沒(méi)有足夠的人力去分析所有數(shù)據(jù),做所有的決定,進(jìn)而采取必要的行動(dòng)。即使我們這么做了,也會(huì)花費(fèi)非常長(zhǎng)的時(shí)間才能成這些事情。
自動(dòng)分析,如同我所定義的,是基于分析法如何被使用。這個(gè)術(shù)語(yǔ)不應(yīng)混淆于以自動(dòng)或半自動(dòng)方式,它們是通過(guò)如 機(jī)器學(xué)習(xí) 為工具來(lái)實(shí)現(xiàn)分析的生成。這種更為常見(jiàn),且其存在也部分地基于同樣原因——太多數(shù)據(jù)需要分析,且沒(méi)有足夠的分析師。
為了能有效的工作,自動(dòng)化分析特別需要被嵌入到為分析提供數(shù)據(jù)的系統(tǒng)中,然后在得到分析結(jié)果后采取行動(dòng)。Gartner 2015戰(zhàn)略科技列表中的“高級(jí)的、普遍存在的和不可見(jiàn)的分析”,以及很多其它分析將被自動(dòng)化。被嵌入自動(dòng)化分析的那些系統(tǒng),會(huì)被歸為“復(fù)雜事件處理”家族,它們被設(shè)計(jì)為實(shí)時(shí)采取行動(dòng)。在其數(shù)據(jù)倉(cāng)庫(kù)和Hadoop集群中,組織機(jī)構(gòu)也日趨進(jìn)行自動(dòng)化分析。這一集成意味著,自動(dòng)化分析需要被緊密連接到信息技術(shù)機(jī)構(gòu)和CIO;這一類(lèi)分析法不再是分開(kāi)的、臨時(shí)的行為。
這通常是一個(gè)貫穿不同類(lèi)別分析法的自然發(fā)展過(guò)程。例如,你是一個(gè)貨運(yùn)公司,你想最小化你的汽油消耗。第一步,應(yīng)該是做音協(xié)描述性分析,看看不同線路的卡車(chē)的耗油情況,耗油量延時(shí)間是增長(zhǎng)還是下降,甚至于是否某些司機(jī)每公里耗油比其他司機(jī)多。第二步,應(yīng)當(dāng)是建立一個(gè)預(yù)測(cè)模型,其特性與更大的油耗相關(guān)聯(lián),或許使用某種形式的回歸分析。第三步,應(yīng)該是開(kāi)始告訴司機(jī)什么時(shí)候在什么地點(diǎn)加油,這正是喲寫(xiě)公司,如施奈德(Schneider National),正在做的事。第四步,將是繞過(guò)駕駛員直接告訴卡車(chē)什么時(shí)候停車(chē)加油。顯然,第四步包含比現(xiàn)在更多的車(chē)輛自動(dòng)化,但若干領(lǐng)導(dǎo)性貨運(yùn)公司告訴我,從技術(shù)角度講這一步并不遙遠(yuǎn),監(jiān)管許可反而可能需要更長(zhǎng)時(shí)間。
當(dāng)然,相比規(guī)范分析,自動(dòng)分析給人類(lèi)提出了更多的難題。試想,當(dāng)卡車(chē)司機(jī)被告知在哪個(gè)停留站加油,他們會(huì)怎么想。我猜,當(dāng)由分析算法做出所有駕駛決定的時(shí)候,司機(jī)們會(huì)更加不樂(lè)意。
自動(dòng)分析是一個(gè)全新的世界,我們會(huì)長(zhǎng)期持續(xù)地評(píng)價(jià)他們可能帶來(lái)的后果。但是,越早認(rèn)定它們是一類(lèi)有效且重要的分析方法,就可以越快開(kāi)始處理它們帶來(lái)的后果。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類(lèi)核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11