
數(shù)據(jù)挖掘中易犯的11大錯(cuò)誤(2)
4a.投機(jī)取巧的數(shù)據(jù):數(shù)據(jù)本身只能幫助分析人員找到什么是顯著的結(jié)果,但它并不能告訴你結(jié)果是對(duì)還是錯(cuò)。
4b.經(jīng)過(guò)設(shè)計(jì)的實(shí)驗(yàn):某些實(shí)驗(yàn)設(shè)計(jì)中摻雜了人為的成分,這樣的實(shí)驗(yàn)結(jié)果也常常不可信。
5. 使用了未來(lái)的信息(Accept Leaks from the Future)
IDMer:看似不可能,卻是實(shí)際中很容易犯的錯(cuò)誤,特別是你面對(duì)成千上萬(wàn)個(gè)變量的時(shí)候。認(rèn)真、仔細(xì)、有條理是數(shù)據(jù)挖掘人員的基本要求。
預(yù)報(bào)(Forecast)示例:預(yù)報(bào)芝加哥銀行在某天的利率,使用神經(jīng)網(wǎng)絡(luò)建模,模型的準(zhǔn)確率達(dá)到95%。但在模型中卻使用了該天的利率作為輸入變量。
金融業(yè)中的預(yù)報(bào)示例:使用3日的移動(dòng)平均來(lái)預(yù)報(bào),但卻把移動(dòng)平均的中點(diǎn)設(shè)在今天。
解決方法:
要仔細(xì)查看那些讓結(jié)果表現(xiàn)得異常好的變量,這些變量有可能是不應(yīng)該使用,或者不應(yīng)該直接使用的。
給數(shù)據(jù)加上時(shí)間戳,避免被誤用。
6. 拋棄了不該忽略的案例(Discount Pesky Cases)
IDMer:到底是“寧為雞頭,不為鳳尾”,還是“大隱隱于市,小隱隱于野”?不同的人生態(tài)度可以有同樣精彩的人生,不同的數(shù)據(jù)也可能蘊(yùn)含同樣重要的價(jià)值。
異常值可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)果(比如價(jià)格中的小數(shù)點(diǎn)標(biāo)錯(cuò)了),但也可能是問(wèn)題的答案(比如臭氧洞)。所以需要仔細(xì)檢查這些異常。
研究中最讓激動(dòng)的話(huà)語(yǔ)不是“啊哈!”,而是“這就有點(diǎn)奇怪了……”
數(shù)據(jù)中的不一致性有可能會(huì)是解決問(wèn)題的線(xiàn)索,深挖下去也許可以解決一個(gè)大的業(yè)務(wù)問(wèn)題。
例如:
在直郵營(yíng)銷(xiāo)中,在對(duì)家庭地址的合并和清洗過(guò)程中發(fā)現(xiàn)的數(shù)據(jù)不一致,反而可能是新的營(yíng)銷(xiāo)機(jī)會(huì)。
解決方法:
可視化可以幫助你分析大量的假設(shè)是否成立。
7. 輕信預(yù)測(cè)(Extrapolate)
IDMer:依然是辯證法中的觀點(diǎn),事物都是不斷發(fā)展變化的。
人們常常在經(jīng)驗(yàn)不多的時(shí)候輕易得出一些結(jié)論。
即便發(fā)現(xiàn)了一些反例,人們也不太愿意放棄原先的想法。
維度咒語(yǔ):在低維度上的直覺(jué),放在高維度空間中,常常是毫無(wú)意義的。
解決方法:
進(jìn)化論。沒(méi)有正確的結(jié)論,只有越來(lái)越準(zhǔn)確的結(jié)論。
8. 試圖回答所有問(wèn)題(Answer Every Inquiry)
IDMer:有點(diǎn)像我爬山時(shí)鼓勵(lì)自己的一句話(huà)“我不知道什么時(shí)候能登上山峰,但我知道爬一步就離終點(diǎn)近一步?!?/span>
“不知道”是一種有意義的模型結(jié)果。
模型也許無(wú)法100%準(zhǔn)確回答問(wèn)題,但至少可以幫我們估計(jì)出現(xiàn)某種結(jié)果的可能性。
9. 隨便地進(jìn)行抽樣(Sample Casually)
9a 降低抽樣水平。例如,MD直郵公司進(jìn)行響應(yīng)預(yù)測(cè)分析,但發(fā)現(xiàn)數(shù)據(jù)集中的不響應(yīng)客戶(hù)占比太高(總共一百萬(wàn)直郵客戶(hù),其中超過(guò)99%的人未對(duì)營(yíng)銷(xiāo)做出響應(yīng))。于是建模人員做了如下抽樣:把所有響應(yīng)者放入樣本集,然后在所有不響應(yīng)者中進(jìn)行系統(tǒng)抽樣,即每隔10人抽一個(gè)放入樣本集,直到樣本集達(dá)到10萬(wàn)人。但模型居然得出如下規(guī)則:凡是居住在Ketchikan、Wrangell和Ward Cove Alaska的人都會(huì)響應(yīng)營(yíng)銷(xiāo)。這顯然是有問(wèn)題的結(jié)論。(問(wèn)題就出在這種抽樣方法上,因?yàn)樵紨?shù)據(jù)集已經(jīng)按照郵政編碼排序,上面這三個(gè)地區(qū)中不響應(yīng)者未能被抽取到樣本集中,故此得出了這種結(jié)論)。
解決方法:“喝前搖一搖!”先打亂原始數(shù)據(jù)集中的順序,從而保證抽樣的隨機(jī)性。
9b 提高抽樣水平。例如,在信用評(píng)分中,因?yàn)檫`約客戶(hù)的占比一般都非常低,所以在建模時(shí)常常會(huì)人為調(diào)高違約客戶(hù)的占比(比如把這些違約客戶(hù)的權(quán)重提高5倍)。建模中發(fā)現(xiàn),隨著模型越來(lái)越復(fù)雜,判別違約客戶(hù)的準(zhǔn)確率也越來(lái)越高,但對(duì)正??蛻?hù)的誤判率也隨之升高。(問(wèn)題出在數(shù)據(jù)集的劃分上。在把原始數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集時(shí),原始數(shù)據(jù)集中違約客戶(hù)的權(quán)重已經(jīng)被提高過(guò)了)
解決方法:先進(jìn)行數(shù)據(jù)集劃分,然后再提高訓(xùn)練集中違約客戶(hù)的權(quán)重。
10. 太相信最佳模型(Believe the Best Model)
IDMer:還是那句老話(huà)-“沒(méi)有最好,只有更好!”
可解釋性并不一定總是必要的。看起來(lái)并不完全正確或者可以解釋的模型,有時(shí)也會(huì)有用。
“最佳”模型中使用的一些變量,會(huì)分散人們太多的注意力。(不可解釋性有時(shí)也是一個(gè)優(yōu)點(diǎn))
一般來(lái)說(shuō),很多變量看起來(lái)彼此都很相似,而最佳模型的結(jié)構(gòu)看上去也千差萬(wàn)別,無(wú)跡可循。但需注意的是,結(jié)構(gòu)上相似并不意味著功能上也相似。
解決方法:把多個(gè)模型集裝起來(lái)可能會(huì)帶來(lái)更好更穩(wěn)定的結(jié)果。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶(hù) ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢(xún)到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢(xún)結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢(xún)結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03