
IT從來是寂寞的,它沒有鮮亮的外表和跌宕的故事供人消費(fèi)。但借著大數(shù)據(jù)的東風(fēng),IT變得火熱起來。各行各業(yè)都開始用大數(shù)據(jù)告訴你來造句。順著所有公司都是IT公司的邏輯,那么,說什么都是在說大數(shù)據(jù)。
大數(shù)據(jù)在受到熱捧的同時(shí),受到的批評(píng)也不少。近日,一篇《大數(shù)據(jù)、大安利》的文章總結(jié)了幾點(diǎn)國(guó)外對(duì)大數(shù)據(jù)濫用的批評(píng),原文附錄如下:
1,無意義的顯著性:沒有理論的大數(shù)據(jù)是皮毛,只看到顯著相關(guān)性,但不經(jīng)檢驗(yàn),沒有理論,這樣的相關(guān)是沒有意義的,或許是虛假。關(guān)鍵是:大數(shù)據(jù)的data point太多,在計(jì)算上找到兩個(gè)矢量的顯著關(guān)系極其容易,但正是因?yàn)閿?shù)據(jù)量大,控制虛假關(guān)系反而更難,這是一個(gè)兩難。我有一篇文章投出去,匿名評(píng)審說:樣本很大,當(dāng)然能找到顯著相關(guān),但是看不出意義。
2,采樣方法問題:統(tǒng)計(jì)學(xué)家方凱撒總結(jié)了一個(gè)現(xiàn)象,谷歌、facebook等網(wǎng)絡(luò)收集的數(shù)據(jù),往往不具有同質(zhì)性,是在不同的時(shí)間用不同的資源收集,隨后把整個(gè)數(shù)據(jù)合并起來,結(jié)果大數(shù)據(jù)內(nèi)部許多部分的數(shù)據(jù)根本不是用同樣的方法收集的,統(tǒng)計(jì)抽樣的基本假設(shè)都被推翻了。而且網(wǎng)絡(luò)數(shù)據(jù)和線下數(shù)據(jù)的內(nèi)容不一致,比如華爾街郵報(bào)的電子版和紙版就不一樣,而且用戶可以自定義內(nèi)容。
3,機(jī)器語言不穩(wěn)定:谷歌最開始用關(guān)鍵字預(yù)測(cè)感冒流行地區(qū),開始說比疾控中心預(yù)測(cè)的還準(zhǔn),但后來越來越不準(zhǔn)。有人認(rèn)為這是谷歌的搜索算法在不停地改進(jìn),所以自動(dòng)收集數(shù)據(jù)不穩(wěn)定了。另外機(jī)器語言一旦被誤導(dǎo)會(huì)越錯(cuò)越離譜,比如谷歌翻譯是根據(jù)真實(shí)的文章總結(jié)的,但是有些網(wǎng)絡(luò)的真實(shí)翻譯其實(shí)是谷歌翻的,于是谷歌會(huì)把自己的翻譯基于這些真實(shí)文章上。
當(dāng)企業(yè)提到大數(shù)據(jù)的時(shí)候,往往希望把全部數(shù)據(jù)收集起來,加以分析,這也是理想場(chǎng)景下的大數(shù)據(jù)分析應(yīng)用。但很多時(shí)候,企業(yè)會(huì)受到技術(shù)和成本的掣肘,仍然采用抽樣分析。實(shí)際抽樣中往往需要分層,分層抽樣的情況下,后期統(tǒng)計(jì)運(yùn)算都必須一個(gè)權(quán)重,權(quán)重是和該層被選擇的概率成反比的。一個(gè)分層的權(quán)重高,在分析中就不可忽視。大數(shù)據(jù)的問題是它只能收集到權(quán)重低的數(shù)據(jù)。
現(xiàn)實(shí)生活中也是這樣,最容易研究的對(duì)象往往最無聊,心理學(xué)經(jīng)常上課找大學(xué)生做實(shí)驗(yàn),所以現(xiàn)在以大學(xué)生為樣本的文章很難發(fā)表了。因此,有時(shí)大數(shù)據(jù)雖然大,卻往往不重要。
無獨(dú)有偶,《黑天鵝》一書也說到,決定社會(huì)變革的大部分是帕累托分布,并不是鐘形分布,這表面上看來暗合了數(shù)據(jù)越大越不重要的觀點(diǎn)。但實(shí)際上是對(duì)大數(shù)據(jù)的使用者有了更高的要求,怎樣在海量的數(shù)據(jù)里挑選出看似風(fēng)馬牛不相及的變量聯(lián)系在一起得出結(jié)論。
大數(shù)據(jù)因?yàn)楦拍钏缮?,理論欠缺,被填充進(jìn)了太多的假象。如何結(jié)合具體的應(yīng)用場(chǎng)景,滿足業(yè)務(wù)需求才是企業(yè)內(nèi)大數(shù)據(jù)技術(shù)落地的正確方向。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03