
避免大數(shù)據(jù)分析的思維陷阱
大數(shù)據(jù)分析可以追溯到30年前, 那時(shí)在數(shù)據(jù)分析界, 人們認(rèn)為數(shù)據(jù)分析的工具和算法已經(jīng)可以深度分析出任何東西, 所欠缺的就是數(shù)據(jù)量。 數(shù)據(jù)分析師們的說(shuō)法就是, 如果你能夠讓我測(cè)量一切數(shù)據(jù), 追蹤一切數(shù)據(jù), 從微觀的精確到分鐘的銷售, 精確到每個(gè)人的資源消耗,到宏觀的變量如利率的變化等, 我就能夠告訴你想知道的一切, 這些變量之間的相關(guān)性, 它們的變化趨勢(shì)等等一切的一切。
這種說(shuō)法一直是主流數(shù)據(jù)分析界的看法。 到了今天, 數(shù)據(jù)量已經(jīng)不成問(wèn)題了。 互聯(lián)網(wǎng)的幾乎能夠找到你需要的任何數(shù)據(jù)。 想要知道賓夕法尼亞州的工業(yè)清洗設(shè)備的銷售與該州的鋼鐵廠的設(shè)備使用的關(guān)系? 沒(méi)問(wèn)題, 想要提高用戶滿意度? 可以把用戶投訴數(shù)據(jù)采用聚類算法進(jìn)行聚類。 你動(dòng)動(dòng)鼠標(biāo), 很多數(shù)據(jù)就能夠找到了。
大數(shù)據(jù)的“羅生門”
好了, 現(xiàn)在的問(wèn)題, 已經(jīng)不是數(shù)據(jù)不夠的問(wèn)題了。 分析師不能再說(shuō)“我的分析方法沒(méi)問(wèn)題, 只要有足夠的數(shù)據(jù)。 ”如今, 數(shù)據(jù)的豐富程度已經(jīng)足以滿足任何分析方法的需要。 相反, 分析師需要考慮的是“什么樣的分析方法最合適”以及“這些數(shù)據(jù)到底能告訴我們什么”。
這很自然地帶來(lái)了另一個(gè)問(wèn)題, 這個(gè)問(wèn)題可能是大數(shù)據(jù)帶來(lái)的真正問(wèn)題。 那就是:現(xiàn)有的數(shù)據(jù), 多的可以讓你想要分析出什么結(jié)果, 就能分析出什么結(jié)果。
有一句話叫做:“這個(gè)世界上有兩種謊言, 第一種叫謊言, 第二種叫統(tǒng)計(jì)”。 我們的大腦有一種無(wú)與倫比的能力, 那就是發(fā)現(xiàn)規(guī)律的能力(即便是其實(shí)沒(méi)有規(guī)律)。
達(dá)頓商學(xué)院的教授曾經(jīng)在班上做過(guò)這樣一個(gè)實(shí)驗(yàn):他找了兩個(gè)學(xué)生, 其中一個(gè)學(xué)生, 用隨機(jī)數(shù)生成器 生成一個(gè)數(shù)列, 數(shù)列里的每個(gè)數(shù), 都是1 到10 之間的一個(gè)隨機(jī)整數(shù)。 另一個(gè)學(xué)生, 則寫同樣長(zhǎng)度的一個(gè)數(shù)列, 數(shù)列中的每個(gè)數(shù), 這個(gè)學(xué)生可以隨機(jī)地寫從1到10 之間的一個(gè)整數(shù)。 教授讓第三個(gè)學(xué)生, 把這兩個(gè)學(xué)生生成的數(shù)列給他看。 他幾乎每次都能正確地判斷出那個(gè)數(shù)列是真的隨機(jī)數(shù)列, 哪個(gè)數(shù)列是人工寫的。 那些看上去有規(guī)律, 或者常有連續(xù)重復(fù)數(shù)字的, 是隨機(jī)數(shù)列。 而人工寫成的數(shù)列, 則盡量避免出現(xiàn)規(guī)律性或者重復(fù)性。 為什么呢? 因?yàn)槲覀兛倽撘庾R(shí)里, 會(huì)認(rèn)為有規(guī)律性或者重復(fù)性的東西, 一定有它的原因, 就不可能是隨機(jī)的。 因此, 當(dāng)我們看到任何有點(diǎn)規(guī)律的模式時(shí), 我們就會(huì)認(rèn)為一定有一些非隨機(jī)的因素。
這種潛意識(shí)其實(shí)來(lái)自于我們?cè)谧匀唤绲纳姹灸堋?當(dāng)你看到草叢晃動(dòng)的時(shí)候, 你寧可認(rèn)為是有一只老虎在那邊, 也比認(rèn)為是“隨機(jī)的” 風(fēng)吹的, 而最后跳出一只老虎來(lái)強(qiáng)。
用“小實(shí)驗(yàn)”來(lái)驗(yàn)證“大數(shù)據(jù)”
如何才能避免掉入這樣的認(rèn)知陷阱呢? 可以采用達(dá)頓商學(xué)院教授Jeanne Liedtka所提倡的“小規(guī)模實(shí)驗(yàn)”的方式。 “小規(guī)模實(shí)驗(yàn)”與“大數(shù)據(jù)挖掘”的區(qū)別在于, “小規(guī)模實(shí)驗(yàn)”是特別設(shè)計(jì)來(lái)驗(yàn)證那些憑借分析工具(或者在分析工具幫助下的想象力)所“發(fā)現(xiàn)”的規(guī)律的正確性。 設(shè)計(jì)小規(guī)模試驗(yàn)的關(guān)鍵, 就是用實(shí)例去驗(yàn)證你發(fā)現(xiàn)的規(guī)律。 如果驗(yàn)證結(jié)果是正確的話, 那么規(guī)律或模式的可信度就提高了。
為什么要“小規(guī)?!蹦?因?yàn)椋?在海量數(shù)據(jù)加上分析工具, 可以讓我們?nèi)グl(fā)現(xiàn)無(wú)數(shù)的規(guī)律和模式, 而對(duì)每個(gè)規(guī)律或模式去驗(yàn)證會(huì)投入資源(時(shí)間以及金錢)。 通過(guò)把實(shí)驗(yàn)數(shù)據(jù)量的規(guī)模減小, 我們就可以更快更有效地驗(yàn)證更多的可能性。 這樣也就能夠加快企業(yè)的創(chuàng)新過(guò)程。
如何進(jìn)行“小規(guī)模實(shí)驗(yàn)”, 要根據(jù)具體情況看。 一般來(lái)說(shuō), 實(shí)驗(yàn)會(huì)采用大數(shù)據(jù)分析所用的數(shù)據(jù)集。 從中取出一部分子集進(jìn)行分析, 發(fā)現(xiàn)的規(guī)律, 通過(guò)另一部分?jǐn)?shù)據(jù)子集進(jìn)行驗(yàn)證, 如果規(guī)律在驗(yàn)證數(shù)據(jù)子集中也存在的話, 再利用大數(shù)據(jù)數(shù)據(jù)集采集的方式采集新的數(shù)據(jù), 進(jìn)一步進(jìn)行驗(yàn)證。
保險(xiǎn)公司Progressive Insurance以及信用卡公司Capital One是兩個(gè)利用數(shù)據(jù)分析成功取得競(jìng)爭(zhēng)優(yōu)勢(shì)的公司。 在他們的實(shí)踐中, 他們就很好地采用了這樣的“大數(shù)據(jù), 小實(shí)驗(yàn)”的方式, 他們意識(shí)到我們天生的那種發(fā)現(xiàn)“并不存在的”規(guī)律的能力的危險(xiǎn)性, 因此,他們利用小規(guī)模試驗(yàn)的方式, 從而使得他們能夠快速有效地進(jìn)行數(shù)據(jù)挖掘。
海量數(shù)據(jù)加上分析工具, 使得數(shù)據(jù)分析現(xiàn)在是一個(gè)很熱的話題。 很多企業(yè)認(rèn)為數(shù)據(jù)分析師能夠“點(diǎn)石成金”。 但是,常言道: “人們看到的是他們想要看到的東西。” 今天, 我們有了海量數(shù)據(jù)和能“發(fā)現(xiàn)任何規(guī)律”的分析工具后, 還是不能忘記那個(gè)最古老的辦法——用小規(guī)模的實(shí)驗(yàn)去驗(yàn)證。 否則的話, 幾百萬(wàn)上千萬(wàn)美元的大數(shù)據(jù)投資, 可能發(fā)現(xiàn)的只是我們想象出來(lái)的“規(guī)律”。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無(wú)外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫(kù)的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問(wèn)題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開(kāi)啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08