
采集和分析大數(shù)據(jù)時(shí)所面臨的問題
你或許很熟悉這樣一個(gè)統(tǒng)計(jì)結(jié)論:世界90%的數(shù)據(jù)是過(guò)去幾年里產(chǎn)生的。事實(shí)上,過(guò)去三十年中,全世界的數(shù)據(jù)量大約每?jī)赡暝黾?0倍——遠(yuǎn)遠(yuǎn)超過(guò)了計(jì)算機(jī)領(lǐng)域的摩爾定律。
這樣的信息增長(zhǎng)速率會(huì)帶來(lái)一些問題,其中之一便是現(xiàn)時(shí)的數(shù)據(jù)量總是遠(yuǎn)遠(yuǎn)超過(guò)即使最近的過(guò)去。想象你正在通過(guò)一本相片簿回顧人生的頭18年,假設(shè)在兩歲時(shí)你有兩張照片,如果信息增長(zhǎng)速率與世界數(shù)據(jù)量相同,那么在你6到8歲時(shí),你會(huì)有驚人的2000張照片;10到12歲時(shí)有20萬(wàn)張照片;而在16到18歲時(shí),照片數(shù)量會(huì)達(dá)到2億張,相當(dāng)于在最后兩年中,每秒有3張以上的照片。
當(dāng)然,這并非是全球數(shù)據(jù)增長(zhǎng)情況的完美類比。首先,世界大部分?jǐn)?shù)據(jù)的增長(zhǎng)源于有更多的人創(chuàng)造出了更多的信息來(lái)源,同時(shí)伴隨更大、更精細(xì)的格式。不過(guò),有關(guān)比例的觀點(diǎn)還是成立的。如果你像前述的例子那樣回顧以往的記錄,或者試圖進(jìn)行分析,那距離越久遠(yuǎn)的過(guò)去就會(huì)變得越無(wú)關(guān)緊要。
這就是目前采集和分析大數(shù)據(jù)時(shí)所面臨的問題。當(dāng)你開始以更長(zhǎng)遠(yuǎn)的視角往前回溯時(shí),會(huì)發(fā)現(xiàn)近期的事情太多,而以前的事情太少。短視是結(jié)構(gòu)性的,對(duì)短期趨勢(shì)的過(guò)度估計(jì)是壓倒性的,同時(shí)卻忽略了歷史的經(jīng)驗(yàn)教訓(xùn)。
為了理解這個(gè)問題的重要性,需要考慮社會(huì)科學(xué)中有關(guān)“近期偏差”(recency bias,又稱近因效應(yīng))的研究發(fā)現(xiàn)。近期偏差是指在判斷趨勢(shì)時(shí),認(rèn)為未來(lái)事件與近期體驗(yàn)更加類似。這可以說(shuō)是某種“可利用性法則”(availability heuristic) ——不恰當(dāng)?shù)匾宰钊菀妆恢X到的信息來(lái)作為思考的基礎(chǔ)。這還是一種普遍的心理學(xué)特征。舉例來(lái)說(shuō),如果在你居住的地方,過(guò)去幾年中夏季都異乎尋常地寒冷,你 可能會(huì)認(rèn)為夏天正在變得更冷——或者說(shuō)你當(dāng)?shù)氐臍夂蛘谧兝?。事?shí)上,你不應(yīng)當(dāng)把任何東西都塞到數(shù)據(jù)里分析。你需要有一個(gè)長(zhǎng)遠(yuǎn)的視角,才能認(rèn)識(shí)真正有意義的氣候趨勢(shì)。在短時(shí)期內(nèi),你最好不進(jìn)行任何猜測(cè)。不過(guò),我們之中又有誰(shuí)能真正做到這點(diǎn)呢?
現(xiàn)實(shí)生活中大部分復(fù)雜的趨勢(shì)正是如此:股票市場(chǎng)、經(jīng)濟(jì)發(fā)展、企業(yè)的成功或失敗、戰(zhàn)爭(zhēng)或和平、國(guó)家關(guān)系、帝國(guó)的崛起和衰落等等。短期分析不僅不夠扎實(shí),而且毫無(wú)益處甚至?xí)?lái)誤導(dǎo)??纯?009年金融危機(jī)即將到來(lái)的時(shí)候,還有那么多經(jīng)濟(jì)學(xué)家信誓旦旦地宣稱這一事件不會(huì)發(fā)生。認(rèn)為從那種時(shí)間尺度的數(shù)據(jù)就能做出扎實(shí)的預(yù)測(cè),本身就有很大的問題。
我們還應(yīng)當(dāng)記住,在決定哪些數(shù)據(jù)是保存還是刪除的時(shí)候,新穎性往往會(huì)成為主要的考慮因素。舊的淘汰,新的進(jìn)來(lái),在這個(gè)搜索算法本質(zhì)上偏向于新鮮事物的數(shù)字世界中,這是明顯的趨勢(shì)。從高等法院的裁決,到所有的社交媒體服務(wù)平臺(tái)上,我們到處都可以看到已經(jīng)失效的網(wǎng)址。對(duì)當(dāng)前的偏好已經(jīng)滲透到我們身邊幾乎所有的技 術(shù)中,大多數(shù)人已經(jīng)習(xí)慣用個(gè)四五年就把原本光鮮亮麗的機(jī)器拋棄。
怎么辦?這不僅是一個(gè)如何更好保存舊數(shù)據(jù)的問題——盡管這并不是個(gè)壞主意,想想我們現(xiàn)在還有什么東西能保留10年的。更重要的是,這個(gè)問題關(guān)系到確定哪些東西值得優(yōu)先保存,如何在知識(shí)的名義下,確定哪些信息最有意義。
或許我們需要的是“智能遺忘”:讓我們的工具變得更會(huì)放棄最近的過(guò)去,從而在整體視角上保持更大的連續(xù)性。這有點(diǎn)像是重新組織一本相片簿,盡管加上了更多的 數(shù)學(xué)方法。什么時(shí)候兩百萬(wàn)張照片的價(jià)值比兩千張照片更低?什么時(shí)候較大的樣品覆蓋的范圍反而較???什么時(shí)候細(xì)節(jié)水平能提供有用的質(zhì)疑證據(jù),而不是虛假的自信?
許多數(shù)據(jù)集是無(wú)法縮減的,而且在完整的情況下才最寶貴,比如,基因序列、人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、地理和物理學(xué)的原始觀測(cè)數(shù)據(jù)等??茖W(xué)性越弱,數(shù)據(jù)規(guī)模與數(shù)據(jù)的質(zhì)量更可能呈現(xiàn)負(fù)相關(guān),此時(shí)時(shí)間本身就成為更加重要的過(guò)濾工具。我們?nèi)绻蛔屑?xì)選擇過(guò)去保存下來(lái)的有價(jià)值、有意義的東西,那它們就會(huì)悄無(wú)聲息地淹沒在如今日益增長(zhǎng)的噪音之中。
今天的企業(yè)、個(gè)人和政府機(jī)構(gòu)都能夠獲得比以往(甚至就在幾年前)大許多數(shù)量級(jí)的數(shù)據(jù),但這些數(shù)據(jù)并沒有獲得更多的處理時(shí)間。利用越來(lái)越高效的工具,董事會(huì)成員、首席執(zhí)行官、政府官員等決策者可以就已有的信息提出更有意義的問題。單純的堆積不是問題的答案。在一個(gè)數(shù)據(jù)量越來(lái)越大的時(shí)代,如何選擇不知道哪些事情,與選擇做什么事情一樣重要。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
解析 response.text 與 response.content 的核心區(qū)別 在網(wǎng)絡(luò)數(shù)據(jù)請(qǐng)求與處理的場(chǎng)景中,開發(fā)者經(jīng)常需要從服務(wù)器返回的響應(yīng)中提取數(shù) ...
2025-07-22解析神經(jīng)網(wǎng)絡(luò)中 Softmax 函數(shù)的核心作用 在神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程中,激活函數(shù)扮演著至關(guān)重要的角色,它們?yōu)榫W(wǎng)絡(luò)賦予了非線性能力, ...
2025-07-22CDA數(shù)據(jù)分析師證書考取全攻略 一、了解 CDA 數(shù)據(jù)分析師認(rèn)證 CDA 數(shù)據(jù)分析師認(rèn)證是一套科學(xué)化、專業(yè)化、國(guó)際化的人才考核標(biāo)準(zhǔn), ...
2025-07-22左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實(shí)踐 左偏態(tài)分布轉(zhuǎn)正態(tài)分布:方法、原理與實(shí)踐 在統(tǒng)計(jì)分析、數(shù)據(jù)建模和科學(xué)研究中,正態(tài)分 ...
2025-07-22你是不是也經(jīng)常刷到別人漲粉百萬(wàn)、帶貨千萬(wàn),心里癢癢的,想著“我也試試”,結(jié)果三個(gè)月過(guò)去,粉絲不到1000,播放量慘不忍睹? ...
2025-07-21我是陳輝,一個(gè)創(chuàng)業(yè)十多年的企業(yè)主,前半段人生和“文字”緊緊綁在一起。從廣告公司文案到品牌策劃,再到自己開策劃?rùn)C(jī)構(gòu),我靠 ...
2025-07-21CDA 數(shù)據(jù)分析師的職業(yè)生涯規(guī)劃:從入門到卓越的成長(zhǎng)之路 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的當(dāng)下,數(shù)據(jù)已成為企業(yè)核心競(jìng)爭(zhēng)力的重要來(lái)源,而 CD ...
2025-07-21MySQL執(zhí)行計(jì)劃中rows的計(jì)算邏輯:從原理到實(shí)踐 MySQL 執(zhí)行計(jì)劃中 rows 的計(jì)算邏輯:從原理到實(shí)踐 在 MySQL 數(shù)據(jù)庫(kù)的查詢優(yōu)化中 ...
2025-07-21在AI滲透率超85%的2025年,企業(yè)生存之戰(zhàn)就是數(shù)據(jù)之戰(zhàn),CDA認(rèn)證已成為決定企業(yè)存續(xù)的生死線!據(jù)麥肯錫全球研究院數(shù)據(jù)顯示,AI驅(qū) ...
2025-07-2035歲焦慮像一把高懸的利刃,裁員潮、晉升無(wú)望、技能過(guò)時(shí)……當(dāng)職場(chǎng)中年危機(jī)與數(shù)字化浪潮正面交鋒,你是否發(fā)現(xiàn): 簡(jiǎn)歷投了10 ...
2025-07-20CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘?chǎng)或是在職場(chǎng)正面臨崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場(chǎng)焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時(shí)代的價(jià)值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競(jìng)爭(zhēng)力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過(guò)程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實(shí)現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫(kù)管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價(jià)值的橋梁? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對(duì)這樣的場(chǎng)景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時(shí)代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動(dòng)的數(shù)據(jù)曲線尋找增長(zhǎng)密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16