
大數(shù)據(jù)從火到活是個(gè)慢動(dòng)作_數(shù)據(jù)分析師
“有價(jià)值的數(shù)據(jù),不是無用的信息爆炸,而是有價(jià)值的慢數(shù)據(jù),可以預(yù)測個(gè)性化信息的數(shù)據(jù)?!边@或許是2014年百度聯(lián)盟峰會(huì)李彥宏發(fā)出的最擲地有聲的大數(shù)據(jù)言論,當(dāng)然,還有他提及的新企業(yè)級(jí)軟件建言。
在此之前,大數(shù)據(jù)的火讓外界一度將其捧上了云端,李彥宏的思路或許給外界仰視的目光至俯視的疑慮:在大數(shù)據(jù)的概念火完之后,如何讓大數(shù)據(jù)先流動(dòng)起來才具有普世意義。這座“金礦”的挖掘注定是一場革命性顛覆,而顛覆永遠(yuǎn)會(huì)是個(gè)慢動(dòng)作。
末端對(duì)于入口的反哺究竟有多大?
大數(shù)據(jù)究竟的普世意義究竟在哪里?預(yù)測。在《大數(shù)據(jù)時(shí)代》一書中,作者維克托?邁爾?舍恩伯格表達(dá)的主旨其實(shí)就是這兩個(gè)字。
既然李彥宏在此次大數(shù)據(jù)論述中拿智能硬件來舉例,那么筆者也想就此領(lǐng)域結(jié)合大數(shù)據(jù)談下個(gè)人拙見。
“硬+軟+云”一直是智能硬件的標(biāo)配,很明顯,從這個(gè)產(chǎn)業(yè)鏈來看,大數(shù)據(jù)處于末端云中的位置,硬件則發(fā)揮了入口和采集器的功能,通過硬件入口互聯(lián)網(wǎng)世界被重新強(qiáng)化,作為本體的“我”連接外部的人、流程、數(shù)據(jù)和事物,并將信息上升至云端,卸載、儲(chǔ)存……當(dāng)大數(shù)據(jù)被有序抽取、激活后,隨后帶來的便是這樣一個(gè)成果——作為本體的“我”連接外部精準(zhǔn)與匹配的人、流程、數(shù)據(jù)和事物。
請(qǐng)注意幾個(gè)詞匯:預(yù)測、精準(zhǔn)、匹配。并且,排名有先后。
像現(xiàn)在滿大街泛濫的健康領(lǐng)域的智能設(shè)備,很多都期待未來達(dá)到類似EHR(ElectronicHealthRecords,電子健康檔案)和EMR(ElectronicMedical Records,電子病歷)的模式,從醫(yī)院管理的角度講分布式存儲(chǔ)和分布式計(jì)算有助于處理復(fù)雜的事物流程、實(shí)現(xiàn)醫(yī)療行業(yè)的信息化。而從患者體驗(yàn)的角度來講,數(shù)據(jù)的提純可以做到預(yù)測或預(yù)判,就像開處方一樣給用戶提供真正個(gè)性化定制分析方案。
但是,健康和醫(yī)療的概念相差甚遠(yuǎn)。更現(xiàn)實(shí)的是,被拽上天的大數(shù)據(jù)面臨著冷酷的窘境。
然而,大數(shù)據(jù)或許叫錯(cuò)了
“大數(shù)據(jù)可能叫錯(cuò)了?!庇袠I(yè)者曾認(rèn)為,真正有意思的是數(shù)據(jù)變得在線了,尤其是互聯(lián)網(wǎng)時(shí)代,任何東西在線遠(yuǎn)遠(yuǎn)比“大”更反映本質(zhì)。在李彥宏口中,大數(shù)據(jù)的“大”又被另外兩個(gè)字所代替:一個(gè)是開篇所講的“慢”,另一個(gè)是李彥宏在此次百度聯(lián)盟大會(huì)上所提的“新”。
這兩個(gè)字也直擊了大數(shù)據(jù)的痛點(diǎn)。無價(jià)值、重復(fù)性的數(shù)據(jù)不斷生產(chǎn)與卸載,形成類似于信息噪點(diǎn)式的“數(shù)據(jù)垃圾場”。反而,有價(jià)值的信息依然被屏蔽在入口之外。
有價(jià)值的新數(shù)據(jù)、慢數(shù)據(jù)都去哪兒了?早在今年的全國“兩會(huì)”上,李彥宏在會(huì)后回答記者問時(shí)便提及了兩點(diǎn)答案:一、政府部門有很多數(shù)據(jù)現(xiàn)在沒有上網(wǎng),認(rèn)為沒用;二、即使上網(wǎng)了,人們還沒有建立這樣的使用習(xí)慣。
學(xué)者劉瑜曾在同名著作中闡述了一個(gè)關(guān)于“觀念水位”的概念:“政治制度的變革緣于公眾政治觀念的變化,而政治觀念的變化又根植于人們生活觀念的變化。水漲起來,船自然浮起來。”國內(nèi)目前正是缺乏對(duì)于大數(shù)據(jù)的這樣一個(gè)“觀念水位”。中國社會(huì)還沒有建立起類似實(shí)證主義的使用體系。
比如大數(shù)據(jù)之所以能在美國上升為國家層面,原因是這個(gè)國家的確是有“用數(shù)據(jù)說話”的理念底蘊(yùn)的。拿大家熟悉的傳播學(xué)領(lǐng)域?yàn)槔?,早在上世紀(jì)中葉,傳播學(xué)大家——拉扎斯菲爾德就知道如何用定量方法去研究傳播效果的問題?;仡^想想,中國可以么?至少在相關(guān)人文學(xué)科上,還沒形成依靠數(shù)據(jù)說話、實(shí)證主義研究的大氛圍,這個(gè)看看本、碩學(xué)生的畢業(yè)論文就大概有個(gè)了然。
還面臨哪些坎兒?
國內(nèi)因缺乏政府機(jī)構(gòu)的意識(shí),也缺乏公民的推動(dòng)。導(dǎo)致在對(duì)數(shù)據(jù)的應(yīng)用上還處于極度不自信階段。另外,還有這樣幾個(gè)戕害大數(shù)據(jù)進(jìn)化的問題存在:
“要想找到有價(jià)值的數(shù)據(jù),技術(shù)是有價(jià)值的,但在這里并不是最關(guān)鍵的。最關(guān)鍵的是什么呢?最關(guān)鍵的是domainknowledge(領(lǐng)域知識(shí))、你的experience(經(jīng)驗(yàn))、以及跨領(lǐng)域的思考能力。”李彥宏如是言。
這和羅振宇一直強(qiáng)調(diào)的“跨界”型人才思想不謀而合。在這個(gè)傳統(tǒng)工業(yè)社會(huì)向信息社會(huì)無聲息過渡的階段,兩種社會(huì)形態(tài)圈子的人界限十分清晰,這對(duì)于講究物(代表傳統(tǒng)工業(yè)社會(huì))聯(lián)網(wǎng)(代表信息社會(huì))的大數(shù)據(jù)進(jìn)化將很要命。
李彥宏稱大數(shù)據(jù)未來需求的是慢數(shù)據(jù),在筆者盤點(diǎn)了上述諸多問題后,具有顛覆性創(chuàng)造意義的大數(shù)據(jù),其應(yīng)用與操作也必將是一個(gè)慢動(dòng)作。除了霸權(quán)利益、系統(tǒng)頑疾,顛覆性科技事物還需要攻破例如文化倫理、秩序規(guī)范等更艱難的防線。
慢慢來,比較快。即便將來有人硬要拿鐵塊壓住船,依然會(huì)無法阻擋未來社會(huì)對(duì)大數(shù)據(jù)波瀾壯闊式的“觀念水位”
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10