
4.3系統(tǒng)復(fù)雜性引起的挑戰(zhàn)
大數(shù)據(jù)對計算機系統(tǒng)的運行效率和能耗提出了苛刻要求,大數(shù)據(jù)處理系統(tǒng)的效能評價與優(yōu)化問題具有挑戰(zhàn)性,不但要求理清大數(shù)據(jù)的計算復(fù)雜性與系統(tǒng)效率、能耗間的關(guān)系,還要綜合度量系統(tǒng)的吞吐率、并行處理能力、作業(yè)計算精度、作業(yè)單位能耗等多種效能因素。針對大數(shù)據(jù)的價值稀疏性和訪問弱局部性的特點,需要研究大數(shù)據(jù)的分布式存儲和處理架構(gòu)。
大數(shù)據(jù)應(yīng)用涉及幾乎所有的領(lǐng)域,大數(shù)據(jù)的優(yōu)勢是能在長尾應(yīng)用中發(fā)現(xiàn)稀疏而珍貴的價值,但一種優(yōu)化的計算機系統(tǒng)結(jié)構(gòu)很難適應(yīng)各種不同的需求,碎片化的應(yīng)用大大增加了信息系統(tǒng)的復(fù)雜性,像昆蟲種類一樣多(500多萬種)的大數(shù)據(jù)和物聯(lián)網(wǎng)應(yīng)用如何形成手機一樣的巨大市場,這就是所謂“昆蟲綱悖論”。為了化解計算機系統(tǒng)的復(fù)雜性,需要研究異構(gòu)計算系統(tǒng)和可塑計算技術(shù)。
大數(shù)據(jù)應(yīng)用中,計算機系統(tǒng)的負載發(fā)生了本質(zhì)性變化,計算機系統(tǒng)結(jié)構(gòu)需要革命性的重構(gòu)。信息系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),關(guān)注的重點不是數(shù)據(jù)加工,而是數(shù)據(jù)的搬運;系統(tǒng)結(jié)構(gòu)設(shè)計的出發(fā)點要從重視單任務(wù)的完成時間轉(zhuǎn)變到提高系統(tǒng)吞吐率和并行處理能力,并發(fā)執(zhí)行的規(guī)模要提高到10億級以上。構(gòu)建以數(shù)據(jù)為中心的計算系統(tǒng)的基本思路是從根本上消除不必要的數(shù)據(jù)流動,必要的數(shù)據(jù)搬運也應(yīng)由“大象搬木頭”轉(zhuǎn)變?yōu)椤拔浵伆岽竺住薄?
5、發(fā)展大數(shù)據(jù)應(yīng)避免的誤區(qū)
5.1不要一味追求“數(shù)據(jù)規(guī)模大”
大數(shù)據(jù)主要難點不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣、要求及時回應(yīng)和原始數(shù)據(jù)真假難辨?,F(xiàn)有數(shù)據(jù)庫軟件解決不了非結(jié)構(gòu)化數(shù)據(jù),要重視數(shù)據(jù)融合、數(shù)據(jù)格式的標(biāo)準化和數(shù)據(jù)的互操作。采集的數(shù)據(jù)往往質(zhì)量不高是大數(shù)據(jù)的特點之一,但盡可能提高原始數(shù)據(jù)的質(zhì)量仍然值得重視。腦科學(xué)研究的最大問題就是采集的數(shù)據(jù)可信度差,基于可信度很差的數(shù)據(jù)難以分析出有價值的結(jié)果。
一味追求數(shù)據(jù)規(guī)模大不僅會造成浪費,而且效果未必很好。多個來源的小數(shù)據(jù)的集成融合可能挖掘出單一來源大數(shù)據(jù)得不到的大價值。應(yīng)多在數(shù)據(jù)的融合技術(shù)上下功夫,重視數(shù)據(jù)的開放與共享。所謂數(shù)據(jù)規(guī)模大與應(yīng)用領(lǐng)域有密切關(guān)系,有些領(lǐng)域幾個PB的數(shù)據(jù)未必算大,有些領(lǐng)域可能幾十TB已經(jīng)是很大的規(guī)模。
發(fā)展大數(shù)據(jù)不能無止境地追求“更大、更多、更快”,要走低成本、低能耗、惠及大眾、公正法治的良性發(fā)展道路,要像現(xiàn)在治理環(huán)境污染一樣,及早關(guān)注大數(shù)據(jù)可能帶來的“污染”和侵犯隱私等各種弊端。
5.2不要“技術(shù)驅(qū)動”,要“應(yīng)用為先”
新的信息技術(shù)層出不窮,信息領(lǐng)域不斷冒出新概念、新名詞,估計繼“大數(shù)據(jù)”以后,“認知計算”、“可穿戴設(shè)備”、“機器人”等新技術(shù)又會進入炒作高峰。我們習(xí)慣于跟隨國外的熱潮,往往不自覺地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動”的道路。實際上發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗一切技術(shù)的唯一標(biāo)準是應(yīng)用。我國發(fā)展大數(shù)據(jù)產(chǎn)業(yè)一定要堅持“應(yīng)用為先”的發(fā)展戰(zhàn)略,堅持應(yīng)用牽引的技術(shù)路線。技術(shù)有限,應(yīng)用無限。各地發(fā)展云計算和大數(shù)據(jù),一定要通過政策和各種措施調(diào)動應(yīng)用部門和創(chuàng)新企業(yè)的積極性,通過跨界的組合創(chuàng)新開拓新的應(yīng)用,從應(yīng)用中找出路。
5.3不能拋棄“小數(shù)據(jù)”方法
流行的“大數(shù)據(jù)”定義是:無法通過目前主流軟件工具在合理時間內(nèi)采集、存儲、處理的數(shù)據(jù)集。這是用不能勝任的技術(shù)定義問題,可能導(dǎo)致認識的誤區(qū)。按照這種定義,人們可能只會重視目前解決不了的問題,如同走路的人想踩著自己身前的影子。其實,目前各行各業(yè)碰到的數(shù)據(jù)處理多數(shù)還是“小數(shù)據(jù)”問題。我們應(yīng)重視實際碰到的問題,不管是大數(shù)據(jù)還是小數(shù)據(jù)。
統(tǒng)計學(xué)家們花了200多年,總結(jié)出認知數(shù)據(jù)過程中的種種陷阱,這些陷阱不會隨著數(shù)據(jù)量的增大而自動填平。大數(shù)據(jù)中有大量的小數(shù)據(jù)問題,大數(shù)據(jù)采集同樣會犯小數(shù)據(jù)采集一樣的統(tǒng)計偏差。Google公司的流感預(yù)測這兩年失靈,就是由于搜索推薦等人為的干預(yù)造成統(tǒng)計誤差。
大數(shù)據(jù)界流行一種看法:大數(shù)據(jù)不需要分析因果關(guān)系、不需要采樣、不需要精確數(shù)據(jù)。這種觀念不能絕對化,實際工作中要邏輯演繹和歸納相結(jié)合、白盒與黑盒研究相結(jié)合、大數(shù)據(jù)方法與小數(shù)據(jù)方法相結(jié)合。
5.4要高度關(guān)注構(gòu)建大數(shù)據(jù)平臺的成本
目前全國各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達2PB以上的數(shù)據(jù)處理中心,許多城市公安部門要求存儲3個月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。數(shù)據(jù)挖掘的價值是用成本換來的,不能不計成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。什么數(shù)據(jù)需要保存,要保存多少時間,應(yīng)當(dāng)根據(jù)可能的價值和所需的成本來決定。大數(shù)據(jù)系統(tǒng)技術(shù)還在研究之中,美國的E級超級計算機系統(tǒng)要求能耗降低1000倍,計劃到2024年才能研制出來,用現(xiàn)在的技術(shù)構(gòu)建的巨型系統(tǒng)能耗極高。
我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。發(fā)展大數(shù)據(jù)與實現(xiàn)信息化的策略一樣:目標(biāo)要遠大、起步要精準、發(fā)展要快速。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11