
大數(shù)據(jù)時代來臨,社會對數(shù)據(jù)人才的理解和評價存在泡沫,是時候需要回歸到理性。從智聯(lián)網(wǎng)的招聘信息看到,很多公司招聘高級數(shù)據(jù)分析,都特別提出類 似的要求:熟練使用SAS、SPSS、R等工具。這些軟件都是統(tǒng)計軟件,里面的算法都是上個世紀不懂公司業(yè)務(wù)的人弄出來的。既然是統(tǒng)計領(lǐng)域的知識,為什么 特別強調(diào)這部分知識呢?其他知識重要性都較輕嗎?
很多公司招高級數(shù)據(jù)分析如此,阿里巴巴數(shù)據(jù)分析專家盧輝寫的書也有類似的問題。很多人都有光環(huán)效應(yīng)(他們認為由于阿里的數(shù)據(jù)厲害,所以阿里的數(shù) 據(jù)分析專家寫的都是對的,其實阿里發(fā)展好,是整個團隊多年努力出來的)。目前開始有些相對聰明的人慢慢從這個泡沫中從模糊中感覺到不妥,而我本身就是讀統(tǒng) 計的,由于敢于說真話讓我先后被兩個中國新聞人物器重和教導。經(jīng)驗不是一篇文章就能說清楚,我這里只說說我對阿里巴巴數(shù)據(jù)分析專家盧輝著的書《數(shù)據(jù)挖掘與 數(shù)據(jù)化運營實戰(zhàn)》。
先舉個例子,大家都知道同樣頭暈,病根可能是不同的,所以學醫(yī)的學生全部科目都要學,實習要全部科室都走一趟。如果醫(yī)生知識面不夠廣的話,就容易誤診。如果你同意上面例子的話,那么統(tǒng)計方面,知識面不夠廣就會有問題,這結(jié)論大家就能理解了。
例如盧書第17頁提到“數(shù)據(jù)挖掘很多時候并不需要特別專業(yè)的統(tǒng)計背景作為必要條件,不過需要強調(diào)的是基本的統(tǒng)計知識和技能是必需的”。什么才算 基本?懂法律才算最基本吧?統(tǒng)計法規(guī)定統(tǒng)計的職權(quán)是調(diào)查、報告、監(jiān)督看出,國家強調(diào)的是調(diào)查,不是統(tǒng)計分析。而第2章提到統(tǒng)計分析與數(shù)據(jù)挖掘的差異以及書 后面介紹的內(nèi)容,看出盧書作者對統(tǒng)計的認識只停留是統(tǒng)計分析上。這樣有什么問題呢?
第6章數(shù)據(jù)挖掘項目完整應(yīng)用案例演示,提到某公司存在用戶流失的情況,大家都很自然想到調(diào)查原因,有些原因可以通過分析日志記錄的用戶行為數(shù)據(jù) 就能知道大概的問題,也可能公司并沒有相關(guān)的數(shù)據(jù),需要做調(diào)查,包含市場調(diào)查或業(yè)務(wù)調(diào)查。不論是否有相關(guān)的用戶行為數(shù)據(jù),都屬于統(tǒng)計這個大范圍內(nèi)。
但是盧書在第6章提到的方法,浪費大量人力物力,卻沒得到大家真正關(guān)心的答案。書中介紹的做法是:“本案例主要集中是3個方面:1、模型投入應(yīng) 用后提前鎖定有高流失風險的高活躍用戶群體;2、可以將建模過程中發(fā)現(xiàn)的有價值的,最可能影響流失的重要字段和指標選擇性地提供給運營方;3、針對影響流 失的核心指標和字段,可以提供給業(yè)務(wù)方,作為參考線索?!币簿褪腔撕芏嗟臅r間和人力成本卻沒直接回答流失原因,對于沒有相關(guān)的數(shù)據(jù),不懂調(diào)查也不想做調(diào) 查的人就說這不是他們的工作范圍。
另外,盧書封面寫“以業(yè)務(wù)為核心,以思路為重點,以挖掘技術(shù)為輔佐”,這點筆者同意,但是書中內(nèi)容多處違背這個道理。例如按照“以業(yè)務(wù)為核心, 以思路為重點”的說法,業(yè)務(wù)分析和報告應(yīng)該是具有邏輯性,可讀性。但是盧書中第17頁提到“神經(jīng)網(wǎng)絡(luò)挖掘技術(shù),它里面的隱蔽層就是一個黑箱,沒有人能在所 有的情況下讀懂” “在實踐應(yīng)用中,這種情況常會讓習慣統(tǒng)計分析公式的分析師或者業(yè)務(wù)人員感到困惑”“只要模型能正確預(yù)測客戶行為”“業(yè)務(wù)部門、運營部門不了解技術(shù)細節(jié),又 有何不可呢?”按照“以業(yè)務(wù)為核心,以思路為重點”的說法,計算不符合業(yè)務(wù)邏輯的情況是應(yīng)該選擇其他方法去實現(xiàn),但盧書采用了“以挖掘技術(shù)為主,思路為 輔”的做法,以只要能正確預(yù)測用戶行為試圖讓大家覺得這樣做可行。試想如果黑箱算法預(yù)測的結(jié)果出了問題,容易查問題和解決嗎?
面對著業(yè)務(wù)人員對他們使用的計算不理解時,盧書第59頁提到的做法是“業(yè)務(wù)團隊”“應(yīng)該具備”“能理解數(shù)據(jù)分析師的分析報告”。這再一次為上一 個說不清的問題找了個借口。真正以“以業(yè)務(wù)為核心,以思路為重點”的做法,是要求數(shù)據(jù)分析師的報告要讓業(yè)務(wù)團隊的人看得懂。統(tǒng)計法規(guī)定統(tǒng)計的職權(quán)是調(diào)查、 報告、監(jiān)督。報告最起碼就是要讓別人看得懂,有可讀性。盧書把這個邏輯顛倒了。強調(diào)使用SAS、SPSS、R等工具進行分析的數(shù)據(jù)分析師、數(shù)據(jù)挖掘,他們 做的報告也偏向于盧書提到的情況,甚至干脆不寫報告。
數(shù)據(jù)分析、數(shù)據(jù)挖掘是這幾年才新興的職位,他們使用的只是統(tǒng)計知識中很少一部分的內(nèi)容加上互聯(lián)網(wǎng)需要的知識,但是統(tǒng)計的其他知識都沒用嗎?社會 對數(shù)據(jù)人員的評價高還是對統(tǒng)計的評價高?統(tǒng)計局做人口調(diào)查應(yīng)該是家喻戶曉的常識,為什么很多數(shù)據(jù)人員不愿意提,甚至希望與調(diào)查劃清界線。面試過很多公司的 數(shù)據(jù)分析,他們都說自己很喜歡統(tǒng)計,當深入問的時候,原來他們只喜歡數(shù)據(jù)分析那部分工作,這反映社會現(xiàn)狀和教育問題了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10