
用好大數(shù)據(jù),得小心繞過這些坑
在這個大數(shù)據(jù)被頻繁提起的時代,要想去說說大數(shù)據(jù)的缺陷或是不好的地方,還是需要有一點底氣的。好在我們并不是在否定它的作用與價值,而是想提醒每一個想利用好大數(shù)據(jù)、經(jīng)營好大數(shù)據(jù)的單位與個人,必須小心在已有的實踐中早已探明的一些大坑與陷阱,避開這些缺陷所引起的不必要失誤。
1,千萬注意樣本的局限性或特殊性
某報紙記者為了采訪當下關(guān)于DNA親子鑒定的情況,前往某檢測機構(gòu)調(diào)查,在統(tǒng)計了相關(guān)數(shù)據(jù)之后,得到一個驚人的事實,所有的檢測中,竟有近35%的結(jié)果是非親子。這名記者還不放心,又多跑了更大范圍的好幾家檢測機構(gòu),發(fā)現(xiàn)這個數(shù)據(jù)總體都相差不大,于是發(fā)布了新聞《驚人真相:超1/3的男人被戴綠帽》。其實不看數(shù)據(jù),就算掰腳趾頭也知道這新聞胡說八道了,但數(shù)據(jù)又是怎么一回事呢?問題就在于這采集樣本太特殊了。這記者沒去想想,什么樣的人才會帶孩子去做親子鑒定?當然是有了其它顯著性的證據(jù)或懷疑以后才去的嘛!
2,有些干擾性會隨著數(shù)據(jù)量的增長超越正常
大數(shù)據(jù)的理論往往會主張,隨著數(shù)據(jù)量的增長,分析結(jié)果會越來越準確。但是事實上,客觀世界里的數(shù)據(jù)無限復(fù)雜,許多非常一般性的數(shù)據(jù)都有著不等的干擾性,一旦把它們都混合在一起,往往會過份地擴大這些干擾性,產(chǎn)生出許多帶有欺騙性的結(jié)論。比如美國經(jīng)濟的預(yù)測,美國政府每年公布的經(jīng)濟指標數(shù)據(jù)有4.5萬個,而私人機構(gòu)提供的高達400萬個,如此龐雜的數(shù)據(jù),代入到二戰(zhàn)后的11次經(jīng)濟衰退事實中去,得出的結(jié)果卻是五花八門,對于預(yù)測下一次經(jīng)濟衰退毫無幫助。
3,數(shù)據(jù)自身的發(fā)展與變化同樣會影響應(yīng)用結(jié)果
最經(jīng)典的大數(shù)據(jù)應(yīng)用之一,就是谷歌利用搜索引擎預(yù)測流感趨勢。谷歌沒有用任何復(fù)雜的模型,也不依賴任何醫(yī)療檢查,因為他們發(fā)現(xiàn)當人們出現(xiàn)或懷疑有流感癥狀時,就會上網(wǎng)搜索一些相關(guān)的內(nèi)容。谷歌的工程師們只需動用算法對網(wǎng)上5000萬個最熱門的搜索字進行計算即可。谷歌流感趨勢的成功,很快就成為了商業(yè)、技術(shù)和科學領(lǐng)域中最新趨勢的象征。
然而僅僅4年后,人們突然發(fā)現(xiàn)在最近的一次流感爆發(fā)中,谷歌流感趨勢不起作用了。在它作出了一次嚴重的流感爆發(fā)預(yù)警之后,事實發(fā)現(xiàn)并沒有這么嚴重。對此,,預(yù)測結(jié)果比實際情況要夸大了幾乎一倍。事后分析的原因有兩點: 第一是這一年的媒體上充斥著各種關(guān)于流感的駭人故事,導(dǎo)致大量健康的人也會上網(wǎng)上搜索相關(guān)的詞匯;還有就是谷歌更新了自己的搜索算法,在人們輸入與病癥相關(guān)的詞匯時會自動推薦一些診斷結(jié)果,進而影響到了用戶的搜索和瀏覽行為。
4,數(shù)據(jù)行為的表身有時并不代表用戶的意愿
許多用戶都對于“今日頭條”這樣的個性化新聞應(yīng)用頗多抱怨,認為他們所宣稱的基于大數(shù)據(jù)技術(shù)“精確推送”的新聞并不精準。其實我們回到日常應(yīng)用中就會發(fā)現(xiàn),事實上每個人點擊每個標題的動因非常復(fù)雜,點擊的意愿并不代表對于它的興趣,更何況,網(wǎng)絡(luò)上充斥著大量的標題黨誘騙我們的點擊,以及很多時候,我們明明知道它是標題黨,但只是為了點進去看看它到底能玩出什么樣的花樣而已。如果這些因素都不能得到修正,那么這些點擊行為統(tǒng)統(tǒng)被計算成使用偏好,得出來的結(jié)果則會大相徑庭。因此,今日頭條才會別行提供了“不感興趣”的反向過濾功能,來修正這種誤差。
5,為大數(shù)據(jù)而生的統(tǒng)計工具會成為污染的重點
因為大數(shù)據(jù)的應(yīng)用存在于現(xiàn)實的商業(yè)環(huán)境之中,這些數(shù)據(jù)的得出,關(guān)聯(lián)著眾多的商業(yè)利益與個人利益。因此,許多相應(yīng)就對以及試圖影響的黑科技也會就此誕生。目前對于學生以及學者論文的查重工具非常流行,它們就是依賴于論文庫的大數(shù)據(jù)對于檢測論文的句詞分析,來判斷最終的重復(fù)可能與抄襲程度。一旦有人搞清這個程序與語法判斷的邏輯,他們就可以相應(yīng)地以另一種程序來避開檢查,從而達到安全抄襲的目的。
同樣,各種SEO技術(shù),就是針對谷歌、百度等大搜索引擎的大數(shù)據(jù)分析排序算法,通過相應(yīng)的技術(shù)應(yīng)對,去影響到搜索引擎的最終計算結(jié)果,將一些并不重要的搜索結(jié)果排在了最前面。再比如,前幾年,可以利用大數(shù)據(jù)技術(shù),從互聯(lián)網(wǎng)浩瀚的數(shù)據(jù)海洋中客觀分析排出不同行業(yè)中真正有影響力的品牌與產(chǎn)品。而如今,隨著大數(shù)據(jù)概念的普及,各種商業(yè)機構(gòu)出于自身利益原因而大量制造、優(yōu)化與推廣的信息,遠遠超出了普通用戶反饋的信息,從這里所謂大數(shù)據(jù)統(tǒng)計出來的結(jié)果,往往就是被污染的事實。
6,不要期望大數(shù)據(jù)絕對準確,往往只需要提高一點準確度即可
這是大數(shù)據(jù)應(yīng)用中的最后一個淺坑,它的表述至少能給我們安慰。因為人類對于數(shù)據(jù)應(yīng)用、數(shù)據(jù)分析以及數(shù)據(jù)與最終事實真相之間的關(guān)聯(lián)研究,還未走到最后的關(guān)頭。所以,任何期望大數(shù)據(jù)能夠給我們絕對準確、絕對真實的結(jié)果的想法,都是不現(xiàn)實的。但也并非是完全否則,其實,我們只需要通過大數(shù)據(jù),能夠給現(xiàn)有的工作、生活帶來點點準確度的提高即可。正如目前的天氣預(yù)報,雖然無法以100%地準確,但已經(jīng)帶給人類社會以最大限度的幫助了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11