
大數(shù)據(jù)時(shí)代下數(shù)學(xué)建模還有作用嗎
一直以來很想回答這個(gè)問題。只是后來發(fā)現(xiàn)我想說的很多回答者已經(jīng)回答過了。今天看了「拒絕用QQ郵箱發(fā)應(yīng)聘郵件的求職者是否合理?」的有關(guān)討論,突然發(fā)現(xiàn),在這個(gè)問題里面,可以把我的「沒處答的一些話」寫下來。
我曾經(jīng)有一次討論過有關(guān)機(jī)器學(xué)習(xí)的事情,我很相信這樣的方法可以為我們「解決」某些問題提供幫助,但是他對(duì)這些方法很不喜歡,因?yàn)椤附鉀Q」問題跟「理解」問題是兩碼事。大數(shù)據(jù)時(shí)代的各種統(tǒng)計(jì)學(xué)習(xí)方法可以為我們解決許多問題,但我們卻不知道為什么會(huì)這樣。
有了大數(shù)據(jù),我們直接從數(shù)據(jù)里面就得出來很多奇妙的結(jié)論。例如楊宣指出的,在「不通過」這個(gè)分類之下,qq 郵箱是概率排名前五的強(qiáng)特征。這就是「大數(shù)據(jù)時(shí)代」(或者其它各種各樣類型的「實(shí)證研究」)為我們解決的一個(gè)問題——至少 HR 們篩掉 qq 郵箱在統(tǒng)計(jì)的意義上是有些理性依據(jù)的。
但是是不是有什么東西被我們錯(cuò)過了呢?
今年暑假的某一天,我聽一個(gè)我很尊重的老師批評(píng)了目前在做復(fù)雜系統(tǒng)有關(guān)問題時(shí),主要基于統(tǒng)計(jì)的那些研究者,他們做出來的一些東西。我們都知道現(xiàn)在做這些問題的研究者可以發(fā)表很多很好的文章,但是這些文章缺少了某些東西。
以往,如果我寫了一篇論文,發(fā)現(xiàn)某個(gè)結(jié)論,并且在文中提出得出這個(gè)結(jié)論可能的一個(gè)原因,甚至提出來一個(gè)數(shù)學(xué)模型,這個(gè)模型可以解釋我從數(shù)據(jù)分析中得到的那個(gè)結(jié)論。要是把我寫的這篇文章投稿到比較好的期刊,審稿人必然會(huì)提意見——你提出了一種產(chǎn)生這個(gè)結(jié)論的原因,可是你怎樣排除掉其它的原因呢?如果你不能排除掉其它的因素的影響,那我們很遺憾只能拒絕掉你的文章了。
在大數(shù)據(jù)時(shí)代,審稿人們還能以此為理由拒絕掉別人的文章嗎?這些數(shù)據(jù)這么珍貴,甚至有的是從運(yùn)營商、航空公司、網(wǎng)站和志愿者處花費(fèi)了金錢和時(shí)間才得到的,提出這樣的一個(gè)解釋就已經(jīng)很好了……可是我們很可能會(huì)距離理解各種問題越來越遠(yuǎn)。在大數(shù)據(jù)時(shí)代,通過各種統(tǒng)計(jì)的方法,我們可以得到許多有意思的結(jié)論,但是這些結(jié)論不能讓我們心安。就像「用 qq 郵箱的求職者很可能有著較低的簡(jiǎn)歷質(zhì)量」也可能會(huì)是一個(gè)從大數(shù)據(jù)分析得到的結(jié)果,可是我們不會(huì)知道為什么會(huì)這樣。公開這些結(jié)論,甚至可能招致他人的批評(píng)。每個(gè)人可能有不同的看法,也會(huì)自己提出對(duì)這個(gè)問題的解釋,即每個(gè)人都會(huì)對(duì)這個(gè)結(jié)論提出自己的「模型」,并把自己的「模型」跟這個(gè)結(jié)論等價(jià)起來。如果「模型」不能排除其它因素的影響,那么你可以提出你的理論來解釋這個(gè)問題,而我也可以提出我的模型來解釋這個(gè)結(jié)論,我們最終會(huì)無法說服他人。遺憾的是,正因?yàn)槲覀兊慕Y(jié)論來自大數(shù)據(jù),很多時(shí)候我們很難再找出「對(duì)照實(shí)驗(yàn)」的那些數(shù)據(jù)了,雜志社沒有辦法說「如果你能排除掉其它的因素的影響,我們就發(fā)表你的文章」。我們很可能會(huì)距離「為什么」越來越遠(yuǎn)。
而如果把「大數(shù)據(jù)」和「數(shù)學(xué)模型」對(duì)立起來,則這里所說的「模型」便是另一碼事了。這里的「模型」與「機(jī)制」「假設(shè)」「簡(jiǎn)化」等等更接近。有了「模型」,我們就可以從「純粹理性」而非「實(shí)踐理性」的高度讓你心安。就像每個(gè) HR 都可以提出無數(shù)個(gè)討厭 qq 郵箱求職者的理由,只可惜,這些模型都是你個(gè)人的角度,大家攻擊起來實(shí)在容易。我們或許會(huì)越來越難摒棄掉這些偏見,因?yàn)闆]有一個(gè)可以讓大家都相信的「理論」(或者「模型」)。我們只知道結(jié)論。
這時(shí)候,如果你是天才的建模者,提出一個(gè)能被大家公認(rèn)的模型,并排除掉其它也可能造成這一現(xiàn)象的干擾因素,那就是真正的大神了。我比較悲觀,因?yàn)槲易约阂矔?huì)在實(shí)用的結(jié)論面前滿足。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
2025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù)》一書中指出:AI思維, ...
2025-07-17數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價(jià)值的橋梁? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對(duì)這樣的場(chǎng)景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時(shí)代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動(dòng)的數(shù)據(jù)曲線尋找增長(zhǎng)密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計(jì)中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運(yùn)維與開發(fā)中,開發(fā)者和 DBA 常會(huì) ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10