
再識大數(shù)據(jù)
如果說在工業(yè)時代,生產(chǎn)原料是基于大自然饋贈的各種原子的產(chǎn)物,那么在信息時代,最基本的生產(chǎn)原料就是比特。而在比特之上,是承載各種信息價值的數(shù)據(jù)。對于信息時代的人們來說,沒有什么比獲得數(shù)據(jù)、擁有數(shù)據(jù)、分析數(shù)據(jù)和利用數(shù)據(jù)更重要的事情了。
近日,《CIOInsight/信息方略》記者就有關(guān)大數(shù)據(jù)與互聯(lián)網(wǎng)的關(guān)系、大數(shù)據(jù)對業(yè)態(tài)的影響、成功利用大數(shù)據(jù)的商業(yè)模式等話題,采訪了中國通信協(xié)會副理事長、國家信息化專家組咨詢委員會委員、光纖傳送網(wǎng)與寬帶信息網(wǎng)專家鄔賀銓先生。以下是經(jīng)過編輯的對話。
被訪者簡介:鄔賀銓,光纖傳送網(wǎng)與寬帶信息網(wǎng)專家,曾任信息產(chǎn)業(yè)部電信科學(xué)技術(shù)研究院副院長兼總工程師?,F(xiàn)任國務(wù)院物聯(lián)網(wǎng)領(lǐng)導(dǎo)小組組長、電信科學(xué)技術(shù)研究院副院長兼總工程師。國內(nèi)最早從事數(shù)字通信技術(shù)研究的骨干之一。
相輔相成的大數(shù)據(jù)與互聯(lián)網(wǎng)
CIOI:先來簡單聊聊大數(shù)據(jù)吧。這是個持續(xù)發(fā)熱的東西,特別是在今天這個信息消費的大背景刺激之下。那么在您看來,大數(shù)據(jù)有哪些具象的表現(xiàn)?
鄔賀銓:我們的城市都有攝像頭,一個小時產(chǎn)生很多的數(shù)據(jù),幾十萬個攝像頭,數(shù)據(jù)達(dá)到數(shù)百個TB,是很正常的事情,所以這個數(shù)據(jù)總量是非常大的。除了政府及公共機(jī)構(gòu)以外,企業(yè)也產(chǎn)生大數(shù)據(jù)。比如說波音飛機(jī),每個飛機(jī)的每趟航程,來回都會產(chǎn)生TB量級的數(shù)據(jù)。波音公司現(xiàn)在擁有的技術(shù),可以做到每幾毫秒都測一個數(shù)據(jù),這樣每年的數(shù)據(jù)有多大,可以想象。
中國聯(lián)通對每個上網(wǎng)用戶都有記錄,一個月記錄一萬多條,對應(yīng)的數(shù)據(jù)量是幾百個TB。除此之外,國家電網(wǎng)公司、醫(yī)療單位也都是數(shù)據(jù)產(chǎn)生的大戶。我們從醫(yī)院的病例可以看到,一個大腦的CT掃描圖,要讓它分辨率很高,微米的數(shù)據(jù)量產(chǎn)生是4.5TB的數(shù)據(jù)。同時按照醫(yī)療規(guī)定,一個患者的數(shù)據(jù)要保存50年。像301醫(yī)院,門診量一萬人;廣州中山大學(xué)醫(yī)院,2008年的數(shù)據(jù)是100個TB,到2013年是1000個TB。
還有大家都知道的淘寶網(wǎng)。去年光棍節(jié)每分鐘幾十個TB的數(shù)據(jù)。騰訊每天有5萬次計算等。所以說,互聯(lián)網(wǎng)上有很多大數(shù)據(jù),每天都有更多的數(shù)據(jù)量產(chǎn)生。我這里還有一個國外的數(shù)據(jù),美國的網(wǎng)站每分鐘有72小時時長的視頻監(jiān)控上載,相當(dāng)于全世界有6億人同時看不同的高清電影。到了2016年,互聯(lián)網(wǎng)可以在3分鐘之內(nèi),傳收300萬小時的視頻。這個數(shù)字相當(dāng)于全世界生產(chǎn)34年不吃飯不睡覺才可以看完的電影。
現(xiàn)在全世界新產(chǎn)生的數(shù)據(jù)量每年增加14%,也就是說互聯(lián)網(wǎng)每兩年翻一番。2012年和2013年互聯(lián)網(wǎng)所產(chǎn)生的流量,等于人們有意識以來,一直到2011年所產(chǎn)生的數(shù)據(jù)量總和,兩年等于一萬年。2011年全世界互聯(lián)網(wǎng)總量1.8個GB。2020年,全世界的數(shù)據(jù)將達(dá)到40個GB。
CIOI:剛才您談了很多互聯(lián)網(wǎng)對大數(shù)據(jù)的影響。那么反過來,大數(shù)據(jù)的產(chǎn)生,又使互聯(lián)網(wǎng)有了那些改變?
鄔賀銓:大數(shù)據(jù)的出現(xiàn),對互聯(lián)網(wǎng)有很大的影響。就以傳統(tǒng)路由器為例。路由器有傳送功能,也有控制功能,還有業(yè)務(wù)功能。大數(shù)據(jù)出現(xiàn)后,我們發(fā)現(xiàn)網(wǎng)絡(luò)上存在時空不對應(yīng)的問題,很難判斷哪個地方的流量最高。因此,現(xiàn)在可以把路由器的網(wǎng)絡(luò)控制功能抽出來,形成一個網(wǎng)絡(luò)控制系統(tǒng);把業(yè)務(wù)功能抽出來形成業(yè)務(wù)系統(tǒng)。靈活實現(xiàn)控制平面的建構(gòu),對于大數(shù)據(jù)流量是一種改型。隨著流量增大,大部分流量過路多,落地少。凡是在光強(qiáng)上做的,就別在電廠做,凡是在IP上可以做的,就不在IPO上做。另外,就是傳統(tǒng)互聯(lián)網(wǎng)IP地址表示主機(jī)的身份,這個很正常。但移動互聯(lián)網(wǎng)的出現(xiàn),使這個計算機(jī)從這里到那里,位置變了,用戶的身份沒有變——完成身份和位置的分離。
另外,現(xiàn)在被討論很多的,IPV4向IPV6遷徙的話題,也是大數(shù)據(jù)對互聯(lián)網(wǎng)的另一個影響。目前為止,必須要解決地址短缺問題,一些人不考慮跟互聯(lián)網(wǎng)兼容的問題,甚至提出“后IP”概念。一般大家認(rèn)為,“革命性”路線發(fā)展需要很長時間,10到15年,甚至更長。從這個意義上來說,我們現(xiàn)在的網(wǎng)絡(luò)等不及,不可能15年以后再解決地址問題,因此,IPV6是一個必須然的選擇。至于說未來,誰也不能保證任何一個技術(shù)是萬全的。看到十幾年之內(nèi),我們沒有別的解決辦法,就只能往這方面走?,F(xiàn)在,IPV6有利于對地址真實身份的認(rèn)知,對網(wǎng)絡(luò)安全性有好處的。但過度到IPV6是一個長期過程,這個需要整個產(chǎn)業(yè)鏈方面的配合。
公共領(lǐng)域:未開采的大數(shù)據(jù)富礦
CIOI:還有一個跟大數(shù)據(jù)挖掘密切相關(guān)的話題,就是公共信息平臺的建立。這也是信息消費的熱點之一,您怎么看這個問題?
鄔賀銓:我們北京的公交有一卡通,如果把這里面的數(shù)據(jù)收集起來,我們就能知道北京多少人從哪里換車,每天是個怎樣的流向。
還有一個例子,上海的所有路口都有攝像頭,每個攝像頭后面都有電視屏,放在交通管理中心。一個交通管理中心再大也放不下這么多屏,因此10秒鐘一輪換。通過大數(shù)據(jù)挖掘,可以把一條馬路的交通組成一個視頻,把整個上海交通組織像一張圖,就像從直升飛機(jī)上俯視上海一樣。
我這里還有一個以色列的例子。以色列首都的交通流量,不同顏色表示不同的事件,有些表示事故等。政府統(tǒng)計出來這些數(shù)據(jù)以后,通過廣播告訴給所有開車的人。我們現(xiàn)在雖然有交通屏,但僅能看到堵車顯示。但是卻無法前進(jìn)和后退。然而,在非常實時的提供到開車的每個人,這才是很好的服務(wù)。我們現(xiàn)在的問題是,有很多地方有很多有用的數(shù)據(jù)沒有被挖掘,會挖掘的人卻沒有數(shù)據(jù)可挖。因此我說,公共領(lǐng)域的大數(shù)據(jù)挖掘,還是要把網(wǎng)絡(luò)和生活結(jié)合起來。
另外,快到國慶了。國慶之前很多人在網(wǎng)上搜索旅游點,還有酒店信息,私家車的路線等。根據(jù)你的搜索,我們知道哪個旅游點最熱,那條路會堵,真正發(fā)生在黃金周的情況,我提前就可以知道。因此,基于在這一點,地圖服務(wù),包括基于LBS的數(shù)據(jù)挖掘、信息開發(fā),都很有可為。我了解的情況,百度成立了定位事業(yè)部,以地圖為載體,覆蓋到餐飲、KTV、上商場等。阿里有保護(hù)中心,在移動端加強(qiáng)與高德地圖合作。騰訊推出會員卡,加上財富通和搜搜地圖,你可以看到現(xiàn)在我們所有網(wǎng)絡(luò)都要跟地圖結(jié)合。要跟位置結(jié)合,要跟本地生活結(jié)合。
利用短信、微博、微信,我們可以收集熱點和輿情。騰訊對每個用戶都建檔案,一個老頭注冊的時候說是18歲少女,無論用什么假名,你在網(wǎng)上時間長了一定露出你的本性。說的夸張一些,不但知道你是男是女,是老是少,還知道你是不是神經(jīng)病。如果公安局要查,騰訊可以提供一堆神經(jīng)病的IP地址。
大數(shù)據(jù)引發(fā)行業(yè)新業(yè)態(tài)
CIOI:您在一開始講到大數(shù)據(jù)伴生的分離作用,這一點很關(guān)鍵,使得之前混在一起的功能,漸漸清晰起來。那么,隨之而來會對數(shù)據(jù)中心會有哪些影響?
鄔賀銓:信源中心和信息中心的分離,是信息技術(shù)走到今天,一個很重要的發(fā)展。到2015年,世界上的數(shù)據(jù)中心中,有一半多以上都會是云計算中心,且都是大容量的。云計算中心一般考慮放在什么地方?一般考慮氣候、能源工業(yè)。我們國家云計算中心會向高緯度地區(qū)集中,比如說內(nèi)蒙一些涼快的地方遷徙。像谷歌把它的云計算中心放在摩洛哥,因為那比較涼快。
現(xiàn)在,我們的數(shù)據(jù)中心大部分在北京、上海、廣州;而未來,數(shù)據(jù)中心會放在內(nèi)蒙偏遠(yuǎn)的地方。此外,將來云計算的出現(xiàn)會把用戶以信息源為中心,向以能源為中心改變,也就是說,中心節(jié)點將發(fā)生變化。過去,上海、北京、廣州是中心,現(xiàn)在隨著大數(shù)據(jù)出現(xiàn)發(fā)現(xiàn)了不能這樣做,我們需要增加這個數(shù)據(jù)和中心。美國網(wǎng)建互聯(lián)中心有八個,我們現(xiàn)在有三個,中信部有計劃增加這個中心。
還有一個影響,就是大數(shù)據(jù)的出現(xiàn),會導(dǎo)致全球互聯(lián)網(wǎng)的去中心化?,F(xiàn)在,像谷歌這樣的全球化公司,都紛紛在中國香港等地方上節(jié)點。這時候,對外的訪問就沒必要跨洋過海到美國去了。從這個意義上說,國際互連網(wǎng)流量比例必將下降,全球互聯(lián)網(wǎng)呈現(xiàn)去中心化。
另外,大數(shù)據(jù)還會導(dǎo)致區(qū)域網(wǎng)絡(luò)扁平化。隨著大數(shù)據(jù)的出現(xiàn),所有省之間都可以實現(xiàn)直連。而且,不這樣安排,根本沒有辦法支持這么大的流量。
此外,還有一個影響,就是內(nèi)容分配網(wǎng)絡(luò)化。為了讓用戶更好更快的接收信息內(nèi)容,我們要做內(nèi)容分配網(wǎng)。國家電信運營商在靠近用戶的地方建了很多CDN,這樣可以適應(yīng)大家更快訪問視頻。CDN的部署對互聯(lián)網(wǎng)流量流向產(chǎn)生了影響,我們國家的國際互聯(lián)網(wǎng)占比是降低的,我們的網(wǎng)間流量比例也是降低的;但同時絕對值增加,本地化的訪問更多了,遠(yuǎn)端的訪問降下來了。
CIOI:剛才講的這些影響和改變,是不是在移動互聯(lián)網(wǎng)也會有相似的問題?
鄔賀銓:移動網(wǎng)絡(luò)也一樣。2009年,我國所有的移動通訊呼叫發(fā)生率,室內(nèi)是63%,家里29%,辦公室占14%。越是大數(shù)據(jù)時代這個比例會越高,室內(nèi)轉(zhuǎn)到WIFI,WIFI多了互相干擾,使用小蜂窩的技術(shù),可以范圍很小,損耗很小,因此調(diào)試率可以增加。一個蜂窩分成多個分布式的天線,這樣有些蜂窩加上基站,但是蜂窩之間是統(tǒng)籌的,干擾統(tǒng)籌來解決數(shù)據(jù)量的傳輸問題。
CIOI:有關(guān)大數(shù)據(jù)的眾多討論中,一個很重要的話題就是數(shù)據(jù)價值的挖掘。有了那么多的數(shù)據(jù)資源,如何加以分析、加以利用,您有哪些好的例子可以分享?
鄔賀銓:淘寶的CPI和國家統(tǒng)計的CPI不一樣,但是淘寶的CPI更能反映我們的物價波動。國家統(tǒng)計局的CPI主要參數(shù)是食品。但除非是經(jīng)濟(jì)情況太差了,人們才會把食品開支省下來,否則不會省吃飯的錢。淘寶的數(shù)據(jù)中,包括了很多買服裝首飾的部分。如果經(jīng)濟(jì)不好,就會反映出來。人人網(wǎng)通過客戶關(guān)系的分析,游戲業(yè)務(wù)取得100%的增長。大家淘寶上買東西,阿里巴巴把你的IP地址記下來,拿出來讓賣化妝品和賣服裝人競價買這個IP地址。百度搜索排名優(yōu)先推薦,央視廣告效果誰知道怎么樣?央視去年的廣告收入269億人民幣,百度廣告收入229億人民幣,百度廣告連增50%以上,央視才增多少?現(xiàn)在他們終于發(fā)現(xiàn),原來百度是我的競爭對手。
另外,大數(shù)據(jù)還推動視頻與互聯(lián)網(wǎng)的融合。樂視網(wǎng)買到《甄傳》的網(wǎng)絡(luò)播出獨家權(quán),搜狐視頻拿下了《中國好聲音》的版權(quán),還有騰訊視頻參與《快樂男聲》的選拔過程,有一些快男被淘汰了,還可以復(fù)活,靠在YY上買東西復(fù)活選手。
現(xiàn)在,基于大數(shù)據(jù)的互聯(lián)網(wǎng),已經(jīng)變成一個新媒體的融合平臺。大數(shù)據(jù)提供集資服務(wù),阿里根據(jù)中小企業(yè)在平臺上的表現(xiàn),選出放心的中小企業(yè),放貸一千多個億,壞賬率只有1.3%。2013年7月份的統(tǒng)計,阿里靠貸款每天利息一百萬。京東收購了網(wǎng)民在線,從信用卡分期貸款,你在京東買東西留地址什么,他提供貸款。蘇寧建立小貸公司解決貸款問題,為它的營銷創(chuàng)造很好的條件。
CIOI:最后一個問題,是有關(guān)互聯(lián)網(wǎng)企業(yè)的。您怎么看待在這場大融合中,互聯(lián)網(wǎng)企業(yè)的角色?
鄔賀銓:現(xiàn)在的互聯(lián)網(wǎng)企業(yè)應(yīng)該當(dāng)輕運營商。我們看到,現(xiàn)在互聯(lián)網(wǎng)企業(yè)除了管道需要運營商,其他東西都不需要依靠運營商,都需要獨立判斷。公安局有微信公眾號,招商銀行也有,這些都可以很好開發(fā)的,各種各樣的增值服務(wù)在這里都可以出現(xiàn)。
電信運營商開展互聯(lián)網(wǎng)活動,銀行做電商,互聯(lián)網(wǎng)企業(yè)做金融,阿里控制電商的入口,騰訊主刀線交入口,大家都希望到對方的業(yè)務(wù)領(lǐng)域做拓展。固定想做移動,移動想做固定,廣播做電信,電信想做廣播,運營的賣手機(jī),手機(jī)的想做運營,現(xiàn)在很難區(qū)分大家的業(yè)務(wù)。我們看到自留地要種,別的也要搞。在這里,電商和搜索會產(chǎn)生新的業(yè)態(tài)。
互聯(lián)網(wǎng)產(chǎn)生大數(shù)據(jù),移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)進(jìn)一步推動數(shù)據(jù)的暴漲。網(wǎng)絡(luò)中心體現(xiàn)去中心化,大數(shù)據(jù)促進(jìn)了信息融合和產(chǎn)業(yè)跨界結(jié)合。大數(shù)據(jù)引發(fā)更多新業(yè)態(tài)出現(xiàn),這對互聯(lián)網(wǎng)發(fā)展是機(jī)遇也是挑戰(zhàn),是對我們國家互聯(lián)網(wǎng)創(chuàng)新能力的一次大考。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10