
大數(shù)據(jù)分析的局限乃傳統(tǒng)統(tǒng)計學(xué)問題
大數(shù)據(jù)”已成為當(dāng)今炙手可熱的科技,商務(wù)、醫(yī)療、社交、教育、政務(wù)等領(lǐng)域紛紛廣泛采用“大數(shù)據(jù)”技術(shù)去提升應(yīng)用系統(tǒng)的智能及效率。
“大數(shù)據(jù)”分析之潛在問題
“大數(shù)據(jù)”的廣泛應(yīng)用始于美國。自從美國總統(tǒng)奧巴馬2012年3月推出2億美元的“大數(shù)據(jù)研究及發(fā)展計劃”后,世界各大小經(jīng)濟(jì)體陸續(xù)仿效,大力投資相關(guān)領(lǐng)域。全球資訊科技企業(yè)亦不敢怠慢,積極推出適合的大數(shù)據(jù)資訊科技方案及產(chǎn)品,更大灑金錢推廣大數(shù)據(jù)分析的優(yōu)點及其所能帶來的商機(jī)。據(jù)觀察,近期不少從事金融、醫(yī)療、社會工作、工商業(yè)、政務(wù)等范疇主管都已被潛移默化,鼓吹“大數(shù)據(jù)”的功能及效益。然而,“大數(shù)據(jù)”真的是萬能的嗎?本文引用不同的國際專家報告,反映“大數(shù)據(jù)”分析之潛在問題。
首篇報告題為《谷歌流感的比喻:大數(shù)據(jù)分析的陷阱》("The Parable of Google Flu : Traps of Big DataAnalytics"),描述了谷歌公司曾利用“大數(shù)據(jù)”分析推算2011/2012年度美國流感的趨勢,但結(jié)果卻強(qiáng)差人意,估計的流感個案數(shù)目遠(yuǎn)超過實際數(shù)目。而谷歌利用的數(shù)據(jù)是來自用戶使用的關(guān)鍵詞(如“禽流感”)次數(shù)及分布作推算分析。專家認(rèn)為構(gòu)成嚴(yán)重誤差的主要原因是谷歌盲目地廣泛收集關(guān)鍵詞,以為越多越好,卻沒有了解用戶查詢時的出發(fā)點,結(jié)果收集得的數(shù)據(jù)大部分來自非流感病患者,因此在數(shù)據(jù)采集階段已嚴(yán)重犯錯,自然推算失準(zhǔn)。若數(shù)據(jù)分析全力集中在流感病患者,結(jié)果便會截然不同。
第二位專家是美國加州大學(xué)伯克利分校的國際知名學(xué)者米高佐敦(MichaelJordon)教授,他最近接受美國IEEE學(xué)會雜志訪問,在題為"Machine-LearningMaestro Michael Jordan on the Delusions of Big Data and Other Huge EngineeringEfforts" 一文中指出,“大數(shù)據(jù)”在現(xiàn)今商業(yè)市場被過分炒作,它最后可能只是一場空歡喜,教授更預(yù)測“大數(shù)據(jù)”的“冬天”即將來臨。他認(rèn)為“大數(shù)據(jù)”用戶作出假設(shè)的速度將會超越大數(shù)據(jù)的統(tǒng)計范疇,在這情況下數(shù)據(jù)分析結(jié)果難免會出現(xiàn)錯誤,造成大量噪音,影響推算的可靠性。
從另一角度看,“大數(shù)據(jù)”用戶往往忽略數(shù)據(jù)的“動力”(dynamics)。例如在變幻無常的商務(wù)環(huán)境中,用戶的需求不停在變,那么昨天的“大數(shù)據(jù)”分析結(jié)果能有效地應(yīng)用于今天的商務(wù)環(huán)境嗎?能夠滿足用戶今天的需求嗎?若然不能,我們需要重新進(jìn)行分析,但昨天采集商務(wù)數(shù)據(jù)的方法能滿足用戶今天的新需求嗎?歸根究底,什么時候開始分析及什么時候停止既是統(tǒng)計學(xué)應(yīng)用的老問題,亦是“大數(shù)據(jù)”分析必須嚴(yán)肅面對的問題,但在千變?nèi)f化的應(yīng)用及數(shù)據(jù)環(huán)境下,要應(yīng)對這個問題更是難上加難。因此佐敦教授進(jìn)一步指出“大數(shù)據(jù)”分析服務(wù)提供者有責(zé)任清楚說明分析推算法的質(zhì)量標(biāo)準(zhǔn)及其誤差度,做好用戶的“期望管理”(Expectation Management)。
“大數(shù)據(jù)”的十大局限
“前車可鑒”,因此用戶在使用“大數(shù)據(jù)”技術(shù)時不容掉以輕心,必須緊慎考慮它在操作上的“盲點”(局限性)。歸納而言,這些“盲點”大致是由于以下網(wǎng)絡(luò)數(shù)據(jù)的不健康特性而產(chǎn)生:
- 噪音性:網(wǎng)上數(shù)據(jù)泛濫,資訊內(nèi)容五花八門,格式也參差不一。要從中過濾與應(yīng)用需求無關(guān)的數(shù)據(jù),既復(fù)雜亦耗時。
- 真實性:由于網(wǎng)絡(luò)資訊自由,即使在找出相關(guān)數(shù)據(jù)之后,內(nèi)容的真假亦難以分別。例如去年在美國總統(tǒng)大選期間,在網(wǎng)絡(luò)媒體上謡言滿天飛,虛假新聞層出不窮,滲透全美每一角落;“教宗贊助特朗普”、“希拉里向伊斯蘭國(IS)販賣軍火”等假新聞在《臉書》上的分享及點評率遠(yuǎn)比傳統(tǒng)紙媒為高。然而,“垃圾入,垃圾出”(Garbage In Garbage Out),基于偽造資訊的“大數(shù)據(jù)”分析,難免會適得其反。
- 代表性:真實的數(shù)據(jù)并不一定具代表性。若然系統(tǒng)錯誤地使用了缺乏代表性的資料作分析的話,結(jié)果便會弄巧反拙。
- 完整性:利用非完整的數(shù)據(jù)進(jìn)行分析,結(jié)果以偏概全,不盡不實,容易引致誤判。
- 時效性:某類數(shù)據(jù)在事件發(fā)生當(dāng)刻可能大派用場,但當(dāng)事件或時限過后,其影響力未必復(fù)再。若然過量的舊數(shù)據(jù)被用作分析,結(jié)果未能反映現(xiàn)況。再者,適時的數(shù)據(jù)往往因為比舊數(shù)據(jù)少而很容易被忽略。
- 解釋性:在“大數(shù)據(jù)”的分析過程中,基于輸入的數(shù)據(jù),算法便會產(chǎn)生及輸出分析結(jié)果。在分析過程中,數(shù)據(jù)輸入如何產(chǎn)生輸出的理據(jù)及兩者的因果關(guān)系并不清晰,如黑箱作業(yè)。
- 預(yù)測性:世事變幻莫測,以前從未發(fā)生過的意外絶不罕見,但卻難以預(yù)料(分析出來)。因此,有專家認(rèn)為“大數(shù)據(jù)”分析是規(guī)范的(prescriptive)而不具預(yù)測性(predictive)的功能。
- 誤導(dǎo)性:使用假資訊或錯誤分析算法均會影響結(jié)果的可靠性?!氨M信書則不如無書”,未經(jīng)核實及驗證的分析結(jié)果可能會造成嚴(yán)重的反效果。
- 合法性:數(shù)據(jù)內(nèi)容、采集方法及其使用過程極有可能涉及個人私隱、商業(yè)機(jī)密及公眾權(quán)益等資訊。因此,資訊的安全性和合法性對“大數(shù)據(jù)”應(yīng)用十分之關(guān)鍵,可是不少企業(yè)只顧賺錢,而罔顧這些因素。
- 價值性:“大數(shù)據(jù)”不是免費(fèi)的,企業(yè)切忌盲目跟風(fēng)。數(shù)據(jù)本身、分析軟件等均所費(fèi)不菲,因此成本效益的衡量是企業(yè)采用“大數(shù)據(jù)”的另一關(guān)鍵考慮點。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03