
大數(shù)據(jù)建設(shè)也要防產(chǎn)能過剩
“大數(shù)據(jù)”聽起來看起來都不陌生,但是真要問起來什么是大數(shù)據(jù),大數(shù)據(jù)該如何運(yùn)用,或許很多人并不清楚。事實(shí)上,大數(shù)據(jù)就是從看似雜亂、重復(fù)、無趣的數(shù)據(jù)中,根據(jù)需要理出一條線索,為解決問題提供靠譜的依據(jù)。近日,由省社科聯(lián)主辦的大數(shù)據(jù)與社會(huì)科學(xué)理論茶座邀請(qǐng)到了中國(guó)工程院院士、中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)理事長(zhǎng)鄔賀銓,國(guó)家信息中心專家委員會(huì)主任寧家駿來濟(jì)講授大數(shù)據(jù)建設(shè)的利與弊。
大數(shù)據(jù)的應(yīng)用
對(duì)于大數(shù)據(jù)的定義,或許用以下的例子就可以讓人有個(gè)大致了解。
2013年十一黃金周之前,百度的數(shù)據(jù)分析師忽然發(fā)現(xiàn)網(wǎng)民點(diǎn)擊搜索“九寨溝”的流量非常大,到九寨溝“怎么玩”、“住在哪”、“怎么去”成了熱點(diǎn)詞,點(diǎn)擊量突然有一個(gè)爆發(fā)性的增長(zhǎng)。百度的數(shù)據(jù)分析師不敢怠慢,把數(shù)據(jù)給國(guó)家旅游局、四川旅游局、九寨溝景區(qū)等做了通報(bào),提醒對(duì)方十一期間,到九寨溝的旅游人數(shù)可能有一個(gè)爆發(fā)性增長(zhǎng),希望相關(guān)部門最好做好預(yù)案,可是相關(guān)部門都沒把這當(dāng)回事。結(jié)果,當(dāng)年的黃金周,去九寨溝旅游的人數(shù)真的暴增,而去九寨溝景點(diǎn)的車輛有限,大量的游客滯留在景區(qū)外,憤怒的人群制造了許多不愉快的事。
2015年元旦,上海外灘的陳毅廣場(chǎng)上,慶祝新年的人群發(fā)生了慘烈的踩踏事故。這個(gè)事情本來可以避免。實(shí)際上,早在新年之前,也就是2014年12月31日晚上,大量的人群開始在外灘聚集準(zhǔn)備慶祝新年,而每個(gè)人身上攜帶的手機(jī)產(chǎn)生的信號(hào)其實(shí)早已經(jīng)作為人群密度的直接數(shù)據(jù)通過電信部門告知了上海公安局。但由于沒有采取相應(yīng)的措施疏導(dǎo)人群,最終導(dǎo)致了慘劇的發(fā)生。
從以上的例子可以看出來,基于網(wǎng)絡(luò)產(chǎn)生的大量數(shù)據(jù),經(jīng)過分析之后,使得看似毫無關(guān)聯(lián)的事情變得有了關(guān)系,之后進(jìn)行干預(yù)并引導(dǎo)其向有利的方向發(fā)展。這些有價(jià)值的數(shù)據(jù),就是大數(shù)據(jù)的一種體現(xiàn)。
隨著科技的發(fā)展,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)與人們的日常生活越來越緊密,城市人群每天都會(huì)通過手機(jī)、公交卡、電腦等方式產(chǎn)生各種各樣的互動(dòng),在網(wǎng)絡(luò)上留下痕跡,這些數(shù)據(jù)匯總之后,可以經(jīng)過分析產(chǎn)生許多有價(jià)值的信息。例如韓國(guó)首爾有一條酒吧街,年輕人都喜歡在那里玩到很晚。之前的時(shí)候,這條街沒有深夜運(yùn)營(yíng)的公交車,出行只能自駕或者出租車,但是進(jìn)酒吧都是喝酒的,這就沒法自駕,而出租車又很貴,于是市民就要求開通一條夜間運(yùn)營(yíng)的線路??墒蔷€路該如何設(shè)計(jì)才能效率最大化呢?當(dāng)?shù)叵嚓P(guān)部門通過分析此前市民從酒吧街離開后打車、網(wǎng)絡(luò)叫車等的主要目的地,最終得出了一條熱點(diǎn)線路,開通了公交,極大地方便了市民出行。對(duì)此,寧家駿表示,北京以及國(guó)內(nèi)不少城市在這一點(diǎn)上做得并不好,經(jīng)常是熱點(diǎn)線路擠不上人,有的線路則經(jīng)??哲嚕Y源利用效率不合理。
再比如,美國(guó)的NBA很早就引入了數(shù)據(jù)化管理,從上世紀(jì)80年代開始,NBA就將球員在賽場(chǎng)的表現(xiàn)數(shù)據(jù)化,經(jīng)過30多年的積極改進(jìn)已達(dá)到了可辨別每一個(gè)球員在場(chǎng)上的弱點(diǎn),方便教練進(jìn)行針對(duì)性戰(zhàn)術(shù)安排?!叭绻堰@樣的大數(shù)據(jù)分析應(yīng)用到中國(guó)足球隊(duì)身上,成績(jī)應(yīng)該會(huì)提高不少?!编w賀銓說。
不要盲目建設(shè)
從某種程度上來說,中國(guó)是數(shù)據(jù)資源的大國(guó),因?yàn)槿丝谝约熬W(wǎng)民的數(shù)量龐大,每天產(chǎn)生海量的數(shù)據(jù),將這些數(shù)據(jù)加以匯總、分析,可以更加行之有效地治國(guó)理政。以醫(yī)療數(shù)據(jù)為例,2008年僅3D 核磁產(chǎn)生的數(shù)據(jù)就達(dá)到100G,這些數(shù)據(jù)還要被保存50年,如果把所有的醫(yī)療數(shù)據(jù)都加起來的話,肯定也是大數(shù)字。不僅如此,中國(guó)的醫(yī)生職業(yè)生涯中會(huì)看幾千個(gè)病人,這是美國(guó)醫(yī)生遠(yuǎn)遠(yuǎn)不能比的,由此產(chǎn)生的經(jīng)驗(yàn)和數(shù)據(jù)也是相當(dāng)豐富的,一旦利用起來,可以有效地提高醫(yī)療水平。但在鄔賀銓、寧家駿看來,現(xiàn)在的問題是,數(shù)據(jù)共享存在不少障礙,數(shù)據(jù)都存在部門化、利益化的傾向,想要真正無障礙高效利用,任重而道遠(yuǎn)。
盡管大數(shù)據(jù)有不少好處,我國(guó)也是一個(gè)數(shù)據(jù)資源大國(guó),但是專家并不建議各地盲目上馬建設(shè)大數(shù)據(jù)項(xiàng)目。“大數(shù)據(jù)不等于傳統(tǒng)的數(shù)據(jù)庫存建設(shè),大數(shù)據(jù)需要云計(jì)算但大數(shù)據(jù)建設(shè)也不等于云計(jì)算中心建設(shè)?!睂幖因E表示,在將大數(shù)據(jù)上升為國(guó)家戰(zhàn)略的過程中,依然要避免出現(xiàn)產(chǎn)能過剩的問題。
寧家駿說:“河北省有三個(gè)地方同時(shí)報(bào)大數(shù)據(jù)中心建設(shè)的項(xiàng)目,分別是廊坊、張北、承德。這其中張北還好說,是因?yàn)槎瑠W會(huì)要在那里開,但承德要搞大數(shù)據(jù)中心就沒有必要了?!睆闹暗南嚓P(guān)高科技項(xiàng)目來看,部分地區(qū)存在建設(shè)項(xiàng)目就是為了圈地、蓋房,但真正建設(shè)好之后,廠房里可能什么都沒有,或者花高價(jià)買來了設(shè)備卻因?yàn)槿狈?yīng)用而將設(shè)備閑置。“這些高科技設(shè)備跟手機(jī)一樣,放上兩三年就一分錢不值了。部分地方花錢建設(shè)了,什么效益都產(chǎn)生不了,純粹浪費(fèi)納稅人的錢?!睂幖因E說。
對(duì)于山東社科聯(lián)將要建設(shè)大數(shù)據(jù)中心,寧家駿表示,這個(gè)中心不一定真正自己去建設(shè)。可以租用山東大學(xué)、浪潮等科研、企業(yè)的設(shè)施,使用自己的數(shù)據(jù),將大數(shù)據(jù)中心的建設(shè)實(shí)現(xiàn)社會(huì)化。但關(guān)鍵還是需要人才的儲(chǔ)備。
與國(guó)外的差距
2012年奧巴馬發(fā)布美國(guó)的大數(shù)據(jù)行動(dòng)計(jì)劃,中國(guó)國(guó)務(wù)院是以國(guó)字頭發(fā)文件在2015年發(fā)布中國(guó)的大數(shù)據(jù)行動(dòng)計(jì)劃,兩者差三年。這個(gè)三年的差距應(yīng)該放到互聯(lián)網(wǎng)的發(fā)展歷史中來看:美國(guó)是1969年開始使用互聯(lián)網(wǎng),中國(guó)則是1994年才進(jìn)入互聯(lián)網(wǎng),從互聯(lián)網(wǎng)的起步到大數(shù)據(jù)的行動(dòng),中國(guó)和美國(guó)的差距縮小了很多。從這個(gè)意義上說,中國(guó)在大數(shù)據(jù)的問題上有一個(gè)好的起步階段。但是從另一個(gè)角度看,美國(guó)在大數(shù)據(jù)方面是有很強(qiáng)大的基礎(chǔ)的,大數(shù)據(jù)涉及到存儲(chǔ)、分析、應(yīng)用等各個(gè)方面,甚至包括大數(shù)據(jù)的硬件產(chǎn)品基本都是美國(guó)遙遙領(lǐng)先。就連提供大數(shù)據(jù)服務(wù)的軟件也是谷歌、亞馬遜、IBM等美國(guó)公司。在這里的差距就不是三年了。
在鄔賀銓看來,盡管有的中國(guó)公司稱從谷歌挖了國(guó)外頂尖的人才或者團(tuán)隊(duì),但大數(shù)據(jù)是一個(gè)系統(tǒng)技術(shù),僅僅是一兩個(gè)人或者團(tuán)隊(duì),沒法根本改變國(guó)內(nèi)大數(shù)據(jù)建設(shè)的不足。
除此之外,大數(shù)據(jù)的應(yīng)用還涉及到網(wǎng)絡(luò)安全。民航、高鐵、銀行等如今都在大數(shù)據(jù)的控制之下,而大數(shù)據(jù)常采用云計(jì)算,其云存儲(chǔ)容易成為被攻擊目標(biāo),用戶面臨數(shù)據(jù)泄露和篡改的風(fēng)險(xiǎn)。在這方面,美國(guó)的網(wǎng)絡(luò)安全排世界第一,中國(guó)僅排到四十位。同時(shí),大數(shù)據(jù)由于在全球范圍內(nèi)都處于起步和摸索階段,非常需要?jiǎng)?chuàng)新的環(huán)境作為其發(fā)展的支撐,從這一點(diǎn)來說,美國(guó)也排在前面,他們從教育開始,小孩的創(chuàng)新就比中國(guó)強(qiáng),我們現(xiàn)在雖然呼吁“萬眾創(chuàng)新”,但是總體上還是創(chuàng)新不如美國(guó)。
不僅如此,美國(guó)有很好的法律來保障大數(shù)據(jù),中國(guó)現(xiàn)在在這一方面欠缺很多。沒有法律支撐,連政府部門都不敢開放數(shù)據(jù)——萬一開放了某些金融類數(shù)據(jù),搞不好還會(huì)被說成存在利益輸送。也因?yàn)闆]有相關(guān)法律,大數(shù)據(jù)中涉及到個(gè)人的,什么是隱私什么是公開,沒有相應(yīng)的界定,也沒有機(jī)制來保證利益?!拔覀兏澜绨l(fā)達(dá)國(guó)家比起來,在大數(shù)據(jù)問題差距較大,還需要從多方面發(fā)展?!编w賀銓說。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11