
大數(shù)據(jù)預(yù)言
大數(shù)據(jù)改變了管中窺豹時(shí)代的混沌和蒙昧,以及面對未知風(fēng)險(xiǎn)的脆弱和無助
大數(shù)據(jù)時(shí)代之前,面對碎片化的數(shù)據(jù),人們?nèi)菀滓云湃?,如同只能依賴觸覺感知大象的盲人,對現(xiàn)象做出有偏差的判斷。而大數(shù)據(jù)則可以讓人們?nèi)フJ(rèn)識事物,以PB為量級的統(tǒng)計(jì)鏈條將分散的小數(shù)據(jù)拼接起來,同時(shí)把決定事物性狀的、反應(yīng)規(guī)律的、決定走向的點(diǎn)找出來,呈現(xiàn)出一個(gè)更加接近本質(zhì)的全景圖。
這幅誘人的全景圖不僅意味著對知識的梳理和對過去的傳承變得更加容易,而且極大減少了未來的不確定性。在大數(shù)據(jù)打造的“負(fù)熵化”世界里,人類將對未知世界帶來的挑戰(zhàn)進(jìn)行充分準(zhǔn)備。
“大數(shù)據(jù)可以幫我們更加準(zhǔn)確的定位未來,決策的質(zhì)量可以提高。”中國人民大學(xué)信息資源管理學(xué)院院長趙國俊在接受《中國經(jīng)濟(jì)和信息化》記者采訪時(shí)表示,“預(yù)知未來已不再依賴占卜和巫術(shù),而是一種科學(xué)?!?br />
大數(shù)據(jù)打假
大數(shù)據(jù)打破了人們對統(tǒng)計(jì)數(shù)字的迷信。
傳統(tǒng)意義上,中國社會一直缺乏數(shù)字管理的精神,過去對上級負(fù)責(zé)的評價(jià)體系導(dǎo)致政府和企業(yè)有時(shí)候會根據(jù)目標(biāo)調(diào)整“統(tǒng)計(jì)數(shù)字”。這一尷尬局面有望被打破。
廣東省大數(shù)據(jù)委員會成員、《大數(shù)據(jù)》一書的作者涂子沛在接受《中國經(jīng)濟(jì)和信息化》記者采訪時(shí)表示,大數(shù)據(jù)時(shí)代絕不是大數(shù)字時(shí)代,人們會從非直接相關(guān)數(shù)據(jù)中解讀出有效信息。“數(shù)據(jù)是事實(shí),是記錄,而不是拍腦門、生捏出來的統(tǒng)計(jì)數(shù)字?!彼麖?qiáng)調(diào),大數(shù)據(jù)可以讓假信息無處可遁。
在炒房熱浪屢抑不止的今天,空房率成為判斷購房行為是否滿足剛性需求的標(biāo)準(zhǔn)。對于房地產(chǎn)企業(yè)公布的數(shù)字心存質(zhì)疑的老百姓有了新的檢驗(yàn)標(biāo)準(zhǔn)——通過難以偽造或疏于偽造的小區(qū)用電用水量判斷空房率。與此有異曲同工之妙的是在技術(shù)水平?jīng)]有突破的情況下,通過用電量對部分好大喜功、追求政績地區(qū)公布的產(chǎn)值或GDP進(jìn)行檢驗(yàn)。
這一思路并不新鮮。早在2007年,時(shí)任遼寧省委書記的李克強(qiáng)對來訪的美國駐華大使表示,他更喜歡通過三個(gè)指標(biāo)來追蹤遼寧的經(jīng)濟(jì)動向:全省鐵路貨運(yùn)量、用電量和銀行已放貸款量,以擠掉統(tǒng)計(jì)數(shù)字的水分。英國雜志《經(jīng)濟(jì)學(xué)人》在2010年把這種思路稱為“克強(qiáng)指數(shù)”。
非直接相關(guān)數(shù)據(jù)的利用正體現(xiàn)了大數(shù)據(jù)的一個(gè)主要特點(diǎn):多源頭的信息形成系統(tǒng)的數(shù)據(jù)庫,互相印證,從而剝離一定的假數(shù)據(jù)。我國各級部門的信息平臺相對獨(dú)立,除非特大或焦點(diǎn)事件,否則各種信息重疊和信息矛盾現(xiàn)象嚴(yán)重。
這一點(diǎn)為企業(yè)“投機(jī)”提供了機(jī)會。假設(shè)累進(jìn)稅制規(guī)定以5000個(gè)杯子為界,月銷售量在5000個(gè)之下的企業(yè)繳納所得稅的稅率為3.5%,而5000個(gè)之上為4%。企業(yè)在向國稅局申報(bào)時(shí),為了企業(yè)經(jīng)濟(jì)利益,可能上報(bào)銷售量為4900個(gè)。
與此同時(shí),地方政府為了扶持地方產(chǎn)業(yè),塑造龍頭企業(yè)形象,經(jīng)常出臺鼓勵政策,對銷售量大、盈利能力高的企業(yè)給予獎勵和政策傾斜。這時(shí),企業(yè)可能會申報(bào)銷售量為1.2萬個(gè)。
在尋租成本較低、監(jiān)督審查制度不完善的機(jī)制下,雙重標(biāo)準(zhǔn)下的雙重?cái)?shù)字使得企業(yè)往往關(guān)注短利,缺乏長線經(jīng)營、長效發(fā)展的戰(zhàn)略眼光,也造成了產(chǎn)業(yè)升級遲緩低效。而大數(shù)據(jù)要求在更大背景下、更大平臺上共享信息,這種利用A數(shù)據(jù)來發(fā)現(xiàn)或修正B數(shù)據(jù)的清洗功能將放大企業(yè)說假話的成本。
大數(shù)據(jù)洗牌
大數(shù)據(jù)讓中國期待“彎道超越”的機(jī)會,創(chuàng)造中國IT企業(yè)從在紅海領(lǐng)域苦苦掙扎轉(zhuǎn)向在藍(lán)海領(lǐng)域奮起直追的戰(zhàn)略機(jī)遇。
傳統(tǒng)IT行業(yè)對于底層設(shè)備、基礎(chǔ)技術(shù)的要求非常高,企業(yè)在起點(diǎn)落后的情況下始終疲于追趕。每當(dāng)企業(yè)在耗費(fèi)大量人力、物力、財(cái)力取得技術(shù)突破時(shí),IT革命早已將核心設(shè)備或元件推進(jìn)至下一階段。
這種一步落后、處處受制于人的狀態(tài)在大數(shù)據(jù)時(shí)代有望得到改變。大數(shù)據(jù)對于硬件基礎(chǔ)設(shè)施的要求相對較低,不會受困于基礎(chǔ)設(shè)備核心元件的相對落后。與在傳統(tǒng)數(shù)據(jù)庫操作層面的技術(shù)差距相比,大數(shù)據(jù)分析應(yīng)用的中外技術(shù)差距要小得多。而且,美國等傳統(tǒng)IT強(qiáng)國的大數(shù)據(jù)戰(zhàn)略也都處于摸著石頭過河的試錯階段。
中國市場的規(guī)模之大也為這一產(chǎn)業(yè)發(fā)展提供了大空間、大平臺。阿里巴巴[微博]積累了超過1000萬億的單表記錄,這樣的數(shù)據(jù)規(guī)模在世界范圍內(nèi)都是罕見的。進(jìn)入大數(shù)據(jù)時(shí)代之前,傳統(tǒng)信息產(chǎn)業(yè)99%的核心產(chǎn)品可能是國外的,國內(nèi)產(chǎn)品只有1%~2%,中國企業(yè)基本上沒有話語權(quán)。大數(shù)據(jù)時(shí)代則給了中國企業(yè)更多機(jī)遇。
我國的優(yōu)勢還體現(xiàn)在中國傳統(tǒng)文化和思維角度上。注重宏觀把握全局的大意識與大數(shù)據(jù)的精神本質(zhì)相符。趙國俊認(rèn)為,此時(shí)如果中國重視大數(shù)據(jù),加速推進(jìn)這一戰(zhàn)略在中國政策和實(shí)踐上落地,就有可能實(shí)現(xiàn)相對加速,從而在大數(shù)據(jù)時(shí)代的IT格局里爭取話語權(quán),實(shí)現(xiàn)信息產(chǎn)業(yè)領(lǐng)域的彎道超越。
“炒作概念甚至不是一件壞事兒。”涂子沛表示,“如果可以帶動大數(shù)據(jù)概念的普及,提升中國人的數(shù)據(jù)管理理念,就是好事?!敝袊?dú)特的體制允許我們在其他國家不可能想象的尺度上辦大事、辦好事,讓政府、企業(yè)界、學(xué)術(shù)界、投資界齊心協(xié)力推動這次可能深刻改變社會和經(jīng)濟(jì)的變革。
大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展格局在信息化社會背景下,影響尤為深遠(yuǎn)。與物質(zhì)資源相比,大數(shù)據(jù)突破了物理界限,可以共享共用。隨著國民經(jīng)濟(jì)和社會發(fā)展對信息的依賴性日益增強(qiáng),較量的是誰更會從大數(shù)據(jù)中發(fā)現(xiàn)戰(zhàn)略價(jià)值。對這一資源的占有意識和利用率越高就意味著對該資源的控制能力越強(qiáng),而控制話語權(quán)的國家可以制定規(guī)則。
“規(guī)則是取代戰(zhàn)爭、形成國際秩序的新辦法?!蓖孔优嬲J(rèn)為。先來者主導(dǎo)的國際規(guī)則決定了國際秩序和世界格局,后來者必須承認(rèn)。這種對先發(fā)優(yōu)勢的認(rèn)可和遵守形成了穩(wěn)定有序、互相推進(jìn)的世界格局。
大數(shù)據(jù)戰(zhàn)略
在新的挑戰(zhàn)面前,中國的政府官員、專家和學(xué)者都在呼吁政府形成這樣一種意識:數(shù)據(jù)是一種戰(zhàn)略資源,作為雞肋或負(fù)擔(dān)扔給外國企業(yè)去處理、分析的時(shí)代應(yīng)該一去不復(fù)返。
大數(shù)據(jù)產(chǎn)業(yè)
中國大數(shù)據(jù)產(chǎn)業(yè)要形成自主完整的鏈條。
這一產(chǎn)業(yè)遠(yuǎn)未成熟,目前國內(nèi)大數(shù)據(jù)經(jīng)濟(jì)生產(chǎn)往往是粗放型的,還沒有到精細(xì)化的程度。在大數(shù)據(jù)開創(chuàng)的藍(lán)海領(lǐng)域里,技術(shù)或數(shù)據(jù)積累擁有相對優(yōu)勢的商家不需要長遠(yuǎn)規(guī)劃精準(zhǔn)定位就可以賺錢。然而,如果注重數(shù)據(jù)質(zhì)量,對分散在企業(yè)生產(chǎn)經(jīng)營流程各個(gè)環(huán)節(jié)的基礎(chǔ)數(shù)據(jù)進(jìn)行清洗,反而會延長見利周期。這就造成了國內(nèi)數(shù)據(jù)分析公司遍地開花,但普遍浮躁,疏于思考如何更高效利用數(shù)據(jù)進(jìn)行精細(xì)化分析。
渴望長壽、關(guān)注社會聲譽(yù)的旗艦企業(yè)更容易從這種短視逐利行為誤區(qū)中走出。趙國俊認(rèn)為,擁有大數(shù)據(jù)資源積累的大企業(yè)應(yīng)當(dāng)通過不斷兼并有核心能力的中小企業(yè),把眾多小帆船組合成鐵殼船,并且進(jìn)一步做大為航空母艦級別的企業(yè)。大數(shù)據(jù)的價(jià)值在于通過整合達(dá)到1+1>2的效果。
涂子沛提出中國的大數(shù)據(jù)產(chǎn)業(yè)鏈尚不完整。大數(shù)據(jù)處理的基礎(chǔ)設(shè)施數(shù)據(jù)倉庫、以物聯(lián)網(wǎng)為代表的數(shù)據(jù)收集環(huán)節(jié)、實(shí)時(shí)性強(qiáng)的在線數(shù)據(jù)分析工具,以及數(shù)據(jù)可視化的產(chǎn)品呈現(xiàn),中國都缺乏具有核心競爭力的產(chǎn)品。而阿里巴巴這類大公司應(yīng)當(dāng)承擔(dān)核心角色。
對于國內(nèi)在大數(shù)據(jù)產(chǎn)業(yè)有優(yōu)勢的公司,涂子沛建議要注意三個(gè)問題。首先,收集數(shù)據(jù)時(shí)科學(xué)規(guī)劃。有的放矢的收集數(shù)據(jù)可以避免關(guān)鍵數(shù)據(jù)沒有收集到位的尷尬,保證數(shù)據(jù)質(zhì)量。其次,企業(yè)內(nèi)部應(yīng)當(dāng)建立統(tǒng)一、高質(zhì)量的數(shù)據(jù)治理框架。最后,首席數(shù)據(jù)官或數(shù)據(jù)治理委員會必須有絕對權(quán)威,因?yàn)閿?shù)據(jù)整合涉及各部門職能和商業(yè)流程的整合。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10