
重視大數(shù)據(jù),但不能拋棄“小數(shù)據(jù)”
當(dāng)前,全國各地都在建設(shè)大數(shù)據(jù)中心,有些偏僻的山區(qū)都建立了容量達(dá)2PB(拍字節(jié))以上的數(shù)據(jù)處理中心,許多城市公安部門要求存儲(chǔ)3個(gè)月以上的高清監(jiān)控錄像。其背后的問題是,這些系統(tǒng)的成本都非常高。
數(shù)據(jù)挖掘的價(jià)值是用成本換來的,不能不計(jì)成本、盲目建設(shè)大數(shù)據(jù)系統(tǒng)。什么數(shù)據(jù)需要保存、要保存多長時(shí)間,應(yīng)當(dāng)根據(jù)可能的價(jià)值和所需的成本來決定。大數(shù)據(jù)系統(tǒng)技術(shù)還在研究之中,美國的E級超級計(jì)算機(jī)系統(tǒng)要求能耗降低到原來的千分之一,計(jì)劃到2024年才能研制出來。因此,用現(xiàn)在的技術(shù)構(gòu)建的巨型系統(tǒng),能耗極高。
一味追求數(shù)據(jù)規(guī)模不僅會(huì)造成浪費(fèi),而且效果未必很好。多個(gè)來源“小數(shù)據(jù)”的集成融合可能挖掘出單一來源大數(shù)據(jù)得不到的“大價(jià)值”。因此,應(yīng)在數(shù)據(jù)的融合技術(shù)上多下功夫,重視數(shù)據(jù)的開放與共享。所謂數(shù)據(jù)規(guī)模大與應(yīng)用領(lǐng)域有密切關(guān)系,有些領(lǐng)域幾個(gè)PB的數(shù)據(jù)未必算大,有些領(lǐng)域可能幾十TB(太字節(jié))已經(jīng)是很大的規(guī)模。
此外,大數(shù)據(jù)主要難點(diǎn)不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣、要求及時(shí)回應(yīng)和原始數(shù)據(jù)真假難辨。現(xiàn)有數(shù)據(jù)庫軟件無力應(yīng)對非結(jié)構(gòu)化數(shù)據(jù),所以要重視數(shù)據(jù)融合、數(shù)據(jù)格式的標(biāo)準(zhǔn)化和數(shù)據(jù)的互操作。數(shù)據(jù)質(zhì)量不高是大數(shù)據(jù)的特點(diǎn)之一,但盡可能提高原始數(shù)據(jù)的質(zhì)量仍然值得重視。比如,腦科學(xué)研究的最大問題就是采集的數(shù)據(jù)可信度差,基于可信度很差的數(shù)據(jù)難以分析出有價(jià)值的結(jié)果。
可見,發(fā)展大數(shù)據(jù)不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發(fā)展道路,要像現(xiàn)在治理環(huán)境污染一樣,及早關(guān)注大數(shù)據(jù)可能帶來的“污染”和侵犯隱私等各種弊端。
實(shí)際上,發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗(yàn)技術(shù)的唯一標(biāo)準(zhǔn)是應(yīng)用。我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)一定要堅(jiān)持“應(yīng)用為先”的發(fā)展戰(zhàn)略,堅(jiān)持應(yīng)用牽引的技術(shù)路線。所謂技術(shù)有限、應(yīng)用無限,各地發(fā)展云計(jì)算和大數(shù)據(jù),一定要通過政策和各種措施調(diào)動(dòng)應(yīng)用部門和創(chuàng)新企業(yè)的積極性,通過跨界的組合創(chuàng)新開拓新的應(yīng)用,從應(yīng)用中找出路。
目前流行的大數(shù)據(jù)定義是“當(dāng)前技術(shù)無法處理的數(shù)據(jù)集合”,這種針對未知技術(shù)的定義強(qiáng)調(diào)大數(shù)據(jù)不同于數(shù)據(jù)庫等傳統(tǒng)技術(shù)能對付的小數(shù)據(jù),有利于推動(dòng)基礎(chǔ)研究、激勵(lì)探索新技術(shù),但可能引導(dǎo)大家只重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實(shí),目前各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問題。我們應(yīng)重視實(shí)際碰到的問題,不管是大數(shù)據(jù)還是小數(shù)據(jù)。
統(tǒng)計(jì)學(xué)家們花了200多年,總結(jié)出認(rèn)知數(shù)據(jù)過程中的種種陷阱,這些陷阱不會(huì)隨著數(shù)據(jù)量的增大而自動(dòng)填平。大數(shù)據(jù)中有大量的小數(shù)據(jù)問題,大數(shù)據(jù)采集同樣會(huì)犯小數(shù)據(jù)采集一樣的統(tǒng)計(jì)偏差。Google公司的流感預(yù)測這兩年失靈,就是由于搜索推薦等人為的干預(yù)造成統(tǒng)計(jì)誤差。
因此,我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實(shí)際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。發(fā)展大數(shù)據(jù)與實(shí)現(xiàn)信息化的策略一樣:目標(biāo)要遠(yuǎn)大、起步要精準(zhǔn)、發(fā)展要快速。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04