
用好大數(shù)據(jù),得小心繞過這些坑
在這個大數(shù)據(jù)被頻繁提起的時代,要想去說說大數(shù)據(jù)的缺陷或是不好的地方,還是需要有一點底氣的。好在我們并不是在否定它的作用與價值,而是想提醒每一個想利用好大數(shù)據(jù)、經(jīng)營好大數(shù)據(jù)的單位與個人,必須小心在已有的實踐中早已探明的一些大坑與陷阱,避開這些缺陷所引起的不必要失誤。
1,千萬注意樣本的局限性或特殊性
某報紙記者為了采訪當(dāng)下關(guān)于DNA親子鑒定的情況,前往某檢測機構(gòu)調(diào)查,在統(tǒng)計了相關(guān)數(shù)據(jù)之后,得到一個驚人的事實,所有的檢測中,竟有近35%的結(jié)果是非親子。這名記者還不放心,又多跑了更大范圍的好幾家檢測機構(gòu),發(fā)現(xiàn)這個數(shù)據(jù)總體都相差不大,于是發(fā)布了新聞《驚人真相:超1/3的男人被戴綠帽》。其實不看數(shù)據(jù),就算掰腳趾頭也知道這新聞胡說八道了,但數(shù)據(jù)又是怎么一回事呢?問題就在于這采集樣本太特殊了。這記者沒去想想,什么樣的人才會帶孩子去做親子鑒定?當(dāng)然是有了其它顯著性的證據(jù)或懷疑以后才去的嘛!
2,有些干擾性會隨著數(shù)據(jù)量的增長超越正常
大數(shù)據(jù)的理論往往會主張,隨著數(shù)據(jù)量的增長,分析結(jié)果會越來越準(zhǔn)確。但是事實上,客觀世界里的數(shù)據(jù)無限復(fù)雜,許多非常一般性的數(shù)據(jù)都有著不等的干擾性,一旦把它們都混合在一起,往往會過份地擴大這些干擾性,產(chǎn)生出許多帶有欺騙性的結(jié)論。比如美國經(jīng)濟的預(yù)測,美國政府每年公布的經(jīng)濟指標(biāo)數(shù)據(jù)有4.5萬個,而私人機構(gòu)提供的高達(dá)400萬個,如此龐雜的數(shù)據(jù),代入到二戰(zhàn)后的11次經(jīng)濟衰退事實中去,得出的結(jié)果卻是五花八門,對于預(yù)測下一次經(jīng)濟衰退毫無幫助。
3,數(shù)據(jù)自身的發(fā)展與變化同樣會影響應(yīng)用結(jié)果
最經(jīng)典的大數(shù)據(jù)應(yīng)用之一,就是谷歌利用搜索引擎預(yù)測流感趨勢。谷歌沒有用任何復(fù)雜的模型,也不依賴任何醫(yī)療檢查,因為他們發(fā)現(xiàn)當(dāng)人們出現(xiàn)或懷疑有流感癥狀時,就會上網(wǎng)搜索一些相關(guān)的內(nèi)容。谷歌的工程師們只需動用算法對網(wǎng)上5000萬個最熱門的搜索字進(jìn)行計算即可。谷歌流感趨勢的成功,很快就成為了商業(yè)、技術(shù)和科學(xué)領(lǐng)域中最新趨勢的象征。
然而僅僅4年后,人們突然發(fā)現(xiàn)在最近的一次流感爆發(fā)中,谷歌流感趨勢不起作用了。在它作出了一次嚴(yán)重的流感爆發(fā)預(yù)警之后,事實發(fā)現(xiàn)并沒有這么嚴(yán)重。對此,,預(yù)測結(jié)果比實際情況要夸大了幾乎一倍。事后分析的原因有兩點: 第一是這一年的媒體上充斥著各種關(guān)于流感的駭人故事,導(dǎo)致大量健康的人也會上網(wǎng)上搜索相關(guān)的詞匯;還有就是谷歌更新了自己的搜索算法,在人們輸入與病癥相關(guān)的詞匯時會自動推薦一些診斷結(jié)果,進(jìn)而影響到了用戶的搜索和瀏覽行為。
4,數(shù)據(jù)行為的表身有時并不代表用戶的意愿
許多用戶都對于“今日頭條”這樣的個性化新聞應(yīng)用頗多抱怨,認(rèn)為他們所宣稱的基于大數(shù)據(jù)技術(shù)“精確推送”的新聞并不精準(zhǔn)。其實我們回到日常應(yīng)用中就會發(fā)現(xiàn),事實上每個人點擊每個標(biāo)題的動因非常復(fù)雜,點擊的意愿并不代表對于它的興趣,更何況,網(wǎng)絡(luò)上充斥著大量的標(biāo)題黨誘騙我們的點擊,以及很多時候,我們明明知道它是標(biāo)題黨,但只是為了點進(jìn)去看看它到底能玩出什么樣的花樣而已。如果這些因素都不能得到修正,那么這些點擊行為統(tǒng)統(tǒng)被計算成使用偏好,得出來的結(jié)果則會大相徑庭。因此,今日頭條才會別行提供了“不感興趣”的反向過濾功能,來修正這種誤差。
5,為大數(shù)據(jù)而生的統(tǒng)計工具會成為污染的重點
因為大數(shù)據(jù)的應(yīng)用存在于現(xiàn)實的商業(yè)環(huán)境之中,這些數(shù)據(jù)的得出,關(guān)聯(lián)著眾多的商業(yè)利益與個人利益。因此,許多相應(yīng)就對以及試圖影響的黑科技也會就此誕生。目前對于學(xué)生以及學(xué)者論文的查重工具非常流行,它們就是依賴于論文庫的大數(shù)據(jù)對于檢測論文的句詞分析,來判斷最終的重復(fù)可能與抄襲程度。一旦有人搞清這個程序與語法判斷的邏輯,他們就可以相應(yīng)地以另一種程序來避開檢查,從而達(dá)到安全抄襲的目的。
同樣,各種SEO技術(shù),就是針對谷歌、百度等大搜索引擎的大數(shù)據(jù)分析排序算法,通過相應(yīng)的技術(shù)應(yīng)對,去影響到搜索引擎的最終計算結(jié)果,將一些并不重要的搜索結(jié)果排在了最前面。再比如,前幾年,可以利用大數(shù)據(jù)技術(shù),從互聯(lián)網(wǎng)浩瀚的數(shù)據(jù)海洋中客觀分析排出不同行業(yè)中真正有影響力的品牌與產(chǎn)品。而如今,隨著大數(shù)據(jù)概念的普及,各種商業(yè)機構(gòu)出于自身利益原因而大量制造、優(yōu)化與推廣的信息,遠(yuǎn)遠(yuǎn)超出了普通用戶反饋的信息,從這里所謂大數(shù)據(jù)統(tǒng)計出來的結(jié)果,往往就是被污染的事實。
6,不要期望大數(shù)據(jù)絕對準(zhǔn)確,往往只需要提高一點準(zhǔn)確度即可
這是大數(shù)據(jù)應(yīng)用中的最后一個淺坑,它的表述至少能給我們安慰。因為人類對于數(shù)據(jù)應(yīng)用、數(shù)據(jù)分析以及數(shù)據(jù)與最終事實真相之間的關(guān)聯(lián)研究,還未走到最后的關(guān)頭。所以,任何期望大數(shù)據(jù)能夠給我們絕對準(zhǔn)確、絕對真實的結(jié)果的想法,都是不現(xiàn)實的。但也并非是完全否則,其實,我們只需要通過大數(shù)據(jù),能夠給現(xiàn)有的工作、生活帶來點點準(zhǔn)確度的提高即可。正如目前的天氣預(yù)報,雖然無法以100%地準(zhǔn)確,但已經(jīng)帶給人類社會以最大限度的幫助了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04