
破解大數(shù)據(jù)價值難題
盡管大數(shù)據(jù)并不是忽悠,但并不是說只要開放了數(shù)據(jù)就可以輕易地發(fā)現(xiàn)“金礦”.鄧侃博士表示,開放數(shù)據(jù)之后,會產(chǎn)生大量的有益的中間結(jié)果,而這促成了最后的成功。
鄧侃強(qiáng)調(diào),大數(shù)據(jù)是不是忽悠關(guān)鍵一條是能不能發(fā)現(xiàn)價值,如果在數(shù)據(jù)中發(fā)現(xiàn)不了價值,那就是忽悠;發(fā)現(xiàn)了價值,那就是創(chuàng)造了一個巨大的利潤點(diǎn)。對于中國移動來說,開放了所有的網(wǎng)絡(luò)日志,集思廣益,可以讓大家讓全世界的神人們來幫你發(fā)現(xiàn)有價值的信息。
發(fā)現(xiàn)其中的價值靠什么東西呢?鄧博士指出,是靠中間的地方,算法,數(shù)據(jù)挖掘的算法。他認(rèn)為,中間這個地方,要有數(shù)據(jù)挖掘的算法加上云計算的并行計算。分布式的云存儲平臺則提供更加廉潔的成本,可以存儲中國移動、中國聯(lián)通等等的大數(shù)據(jù)。為什么要用并行計算?因?yàn)榇髷?shù)據(jù)的量太大了,你簡單算的話,幾個月也算不下來,時間就是價值的一部分,所以你要用并行計算加速數(shù)據(jù)的處理。
鄧侃博士特別說明了APP
Stroe的意義。他說,那些開放以后來自外界的專家提供的不一定是最后的答案,但是他們完全可以提供很多很有價值的中間工具,中間的工具串聯(lián)在一起,就極有可能促成發(fā)現(xiàn)最后的價值信息。所以,在我們就特別強(qiáng)調(diào)這個中間的工具,這就是我們APP
Stroe的意義所在。
此外,鄧侃還提到,你開放的同時,很多的機(jī)密數(shù)據(jù)也出去了,怎么解決這個機(jī)密和你開放中間的矛盾?這是一個很大的挑戰(zhàn)。
由中國移動主辦的“第六屆移動互聯(lián)網(wǎng)國際研討會”,聚焦于云、管、端、“臺”,更廣泛、更深入地探索構(gòu)建合作共贏的產(chǎn)業(yè)新生態(tài),打造移動互聯(lián)新生活。大數(shù)據(jù)、云計算和移動互聯(lián)網(wǎng)都是當(dāng)前IT發(fā)展的熱門趨勢,因此與會者也就這些新技術(shù)與移動生活緊密結(jié)合進(jìn)行討論。
以下為現(xiàn)場演講速記:
鄧侃:剛才張所長對我很多贊美之詞,我不好意思,因?yàn)閹讉€小時前剛剛遭受過打擊,就在我來會場的路上碰到一個熟人,他問你去干嗎?我說我去中國移動的大會,他說什么題目?我說無線城市與大數(shù)據(jù),他說你又去忽悠?我說這個又字怎么說?他說你以前講云計算是一個忽悠,后來又講互聯(lián)網(wǎng),云里霧里都是忽悠,那東西還沒忽悠完,你又開始講大數(shù)據(jù),會不會再是一個忽悠?我說你的問題問得非常好,我做兩個保證,第一個保證就是我今天的演講保證都是干貨,第二絕對是講實(shí)話,爆大料。
首先回答一個問題,大數(shù)據(jù)是不是忽悠?所謂忽悠講簡單一點(diǎn),直白一點(diǎn),就是能不能掙到錢?如果能掙到錢就不是忽悠,如果大家忙了一通白忙就是忽悠。所以我這邊舉一個典型的大數(shù)據(jù)的場景,看一看大數(shù)據(jù)能不能掙到錢。這個例子是一個加拿大公司的例子,發(fā)生在1999年,這個公司叫做GoldCorp,是一個礦產(chǎn)公司,一直到99年的時候,整個公司的財政情況急劇惡化,大家覺得不行了,要最后一搏。這個時候,他們換了一個新的CEO,這個CEO比較年輕,思想比較激進(jìn),剛從MIT上課回來,這個人不是搞計算機(jī)的,但是聽說了開元系統(tǒng)這么一個新鮮的玩意,他覺得既然我們的工程師在地下面挖不出金子,我有沒有可能把所有的地質(zhì)數(shù)據(jù)放到網(wǎng)上公開一下,或許有哪些神人能發(fā)現(xiàn)呢?這就是吸取了開元的經(jīng)驗(yàn)。后來他真做了,他把他們公司對于這個地區(qū)從1948年開始的所有地質(zhì)數(shù)據(jù)全部放到網(wǎng)上公開了,自然好事就來了,很快收到了各種各樣的回饋,公司給他們制定了110個勘探點(diǎn),超過了80個地點(diǎn)找到了金子,于是股價又回來了。所以很多記者來采訪他的經(jīng)驗(yàn)得失。
但是你去瀏覽一下這樣的著名案例的分析和反饋,大家似乎很間咱,說你開源了,開放數(shù)據(jù)了,情況就發(fā)生了。實(shí)際是不是這樣呢?仔細(xì)對一下對他們CEO的采訪,你會發(fā)現(xiàn)第一件事情,是不是我開放了數(shù)據(jù)在全世界的人就發(fā)現(xiàn)了110個礦點(diǎn)呢?仔細(xì)看看CEO的采訪錄,不是的。實(shí)際上有很多中間環(huán)節(jié),這個CEO講了一件事,是說當(dāng)時的數(shù)據(jù)展開之后,這個是日本三菱還是哪個公司駐在麻省的研究院,那幫人是研究CT信號之后,又從CT信號產(chǎn)生人體器官的3D圖的,是醫(yī)療成像方面的研究,和地質(zhì)沒有關(guān)系。但是正好其中有一個研究員聽說有一個地質(zhì)數(shù)據(jù),于是就拿醫(yī)療方面的成像數(shù)據(jù)拿到地質(zhì)方面做了修改,結(jié)果大獲成功。這個
CEO是這么描述的,他說當(dāng)這個研究院的人到他們公司來用醫(yī)療3D技術(shù)展示地質(zhì)層面構(gòu)造的時候,所有在場的高管幾乎跳起來了。但是記住一個問題,這個不是最后的礦點(diǎn),但是因?yàn)槟阌辛诉@么一個3D的地質(zhì)模型之后,大家很容易發(fā)現(xiàn)這個礦難的走向,于是對他后面找到110個礦點(diǎn)創(chuàng)造了非常好的條件。所以,這是第一個方面,開放數(shù)據(jù)之后,會產(chǎn)生大量的有益的中間結(jié)果,而這促成了最后的成功。
第二條說開放數(shù)據(jù),尤其對于這種礦業(yè)公司,非常傳統(tǒng)的公司來講,開放這種公司數(shù)據(jù)是不可思議的事情。很多人認(rèn)為這是公司吃飯的老本,就像可口可樂配方一樣,是不是這樣呢?很多采訪人都說,其實(shí)沒關(guān)系,你開放也可以,所謂的那些公司機(jī)密可能只是公司內(nèi)部的工程師不愿意讓自己丟丑的借口。實(shí)際情況是不是這樣呢?不是的,因?yàn)樵谶@之后,他們成功了,當(dāng)時很多聲音就說你把所有的礦產(chǎn)地質(zhì)結(jié)構(gòu)數(shù)據(jù)開放,也許可以發(fā)現(xiàn)更多的金子,但是他們沒有這么干,他是在絕望的情況下開放的。所以,這個地方就有一個很大的矛盾,如果你開放了數(shù)據(jù),集思廣益,你能夠創(chuàng)造價值。但是,你開放的同時,很多的機(jī)密數(shù)據(jù)也出去了,怎么解決這個機(jī)密和你開放中間的矛盾?這是一個很大的挑戰(zhàn)。
說了這個故事想說什么呢?大數(shù)據(jù)是不是忽悠關(guān)鍵一條是能不能發(fā)現(xiàn)價值,如果在數(shù)據(jù)中發(fā)現(xiàn)不了價值,那就是忽悠;發(fā)現(xiàn)了價值,那就是創(chuàng)造了一個巨大的利潤點(diǎn)。這個事情和我們無線城市、和我們中國移動有沒有關(guān)系呢?我想是有的,這一張圖實(shí)際上是我們3G一般的架構(gòu)圖,3G中間經(jīng)過了很多的網(wǎng)絡(luò)環(huán)節(jié),每一個環(huán)節(jié)會產(chǎn)生大量的數(shù)據(jù),我們這些數(shù)據(jù)都記錄在哪里呢?日志里面、數(shù)據(jù)庫里面等等,這些信息有沒有用呢?有人說有,有人說沒有,比如有人跟我講,到這個數(shù)據(jù)之后,你可以看到任何一個地方可以看到城市什么地方是人比較多的地方,什么地方是人比較少的地方。假設(shè)你知道A和B關(guān)系很密切,你想干什么呢?他們可以告你侵犯隱私,所以這些大數(shù)據(jù),尤其是網(wǎng)絡(luò)運(yùn)營商積淀下來的在數(shù)據(jù)中間,什么樣的東西是有價值的,如何發(fā)現(xiàn)這些信息,實(shí)際上是一個藝術(shù),是個經(jīng)驗(yàn),而不僅僅是個技術(shù)問題。所以,我剛才說了,我說我絕不忽悠、絕不騙人,其中有一條是我堅決說老實(shí)話。
回到剛才的問題,如果中國移動開放了所有的網(wǎng)絡(luò)日志,這些大數(shù)據(jù)中什么樣的信息是有價值的?我的回答是不知道,但是也許你可以開放這些數(shù)據(jù),集思廣益,讓大家讓全世界的神人們來幫你發(fā)現(xiàn)這些信息。接下去的問題是說你要開放一個數(shù)據(jù),你要做一個平臺,請問你的平臺是怎么做的?這個我知道。這個是我們的一個假想圖,但是不要以為我是紙上談兵,我先賣一個關(guān)子。這個圖最右邊很簡單,是一些分布式的云存儲,說我們用一大堆便宜的服務(wù)器把中國移動、中國聯(lián)通等等的大數(shù)據(jù)往里面一存,光有存儲是不是夠呢?是不夠的,因?yàn)槲覀儎偛耪f了,大數(shù)據(jù)是不是忽悠?關(guān)鍵問題在于你能不能發(fā)現(xiàn)其中的價值,發(fā)現(xiàn)其中的價值靠什么東西呢?靠中間的地方,算法,數(shù)據(jù)挖掘的算法,所以,你中間這個地方,你要有數(shù)據(jù)挖掘的算法加上云計算的并行計算。為什么要用并行計算?因?yàn)榇髷?shù)據(jù)的量太大了,你簡單算的話,幾個月也算不下來,時間就是價值的一部分,所以你要用并行計算加速數(shù)據(jù)的處理。最前面是什么?它是一個APP
Stroe.那些開放以后來自外界的專家提供的不一定是最后的答案,但是他們完全可以提供很多很有價值的中間工具,中間的工具串聯(lián)在一起,就極有可能促成發(fā)現(xiàn)最后的價值信息。所以,在我們中間就特別強(qiáng)調(diào)這個中間的工具,這就是我們APP
Stroe的意義所在。云計算的平臺第一是你的存儲要便宜,你買一大堆垃圾的服務(wù)器,串在一起有一個非常漂亮的名稱就叫云存儲。
剛才我說的是技術(shù)架構(gòu),在這個技術(shù)架構(gòu)里面,實(shí)際上牽扯到很多很多的人和物。首先,左邊是說我們有很多數(shù)據(jù)來源。剛才我們舉例說中國移動有網(wǎng)絡(luò)日志,我們還有輿情分析等等,我們稱之為數(shù)據(jù)來源。數(shù)據(jù)來源放進(jìn)去之后,你要發(fā)現(xiàn)不了價值那就是垃圾,怎么才能發(fā)現(xiàn)呢?我剛才講了,那是藝術(shù)、那是經(jīng)驗(yàn),靠很多人,其中最主要的一種人是教授、學(xué)者。那些人一天到晚看著文案想主意,然后他發(fā)現(xiàn)一種新的算法,應(yīng)用開發(fā)商來應(yīng)用,開發(fā)出一個很簡單好用的應(yīng)用,這個應(yīng)用就是說我有一個功能性的東西,怎么才能讓用戶喜歡呢?我們需要一個產(chǎn)品設(shè)計師,你有了產(chǎn)品了,也能夠推到市場,但是需要錢,誰來幫你做這個事呢?投資商進(jìn)來,然后你有了產(chǎn)品為誰服務(wù)?三種人,最終消費(fèi)者、企業(yè)、政府。所以,你要想促成這個大數(shù)據(jù)產(chǎn)業(yè)的繁榮,實(shí)際上就要團(tuán)結(jié)很多人形成一個生態(tài)系統(tǒng)共同繁榮,其中最最主要的實(shí)際上是兩條。第一個是擴(kuò)大數(shù)據(jù)的來源,第二個是盡可能發(fā)現(xiàn)大數(shù)據(jù)中間的價值,抓住這兩條,大數(shù)據(jù)產(chǎn)業(yè)就能繁榮。
這個實(shí)際上是說一個產(chǎn)業(yè)一個學(xué)界上的開放平臺,叫KDD,這是洛杉磯分校搞的一個,在所有的數(shù)據(jù)應(yīng)用中間,這個地方是被引用最高的。大數(shù)據(jù)樣本很多人在捐,已經(jīng)聯(lián)系到中國移動、中國聯(lián)通以及好幾家銀行,還有中國海關(guān)、中國政府部門,他們會提供一些數(shù)據(jù)的樣本,什么叫樣本呢?樣本是說一個部分的區(qū)域,不是全國的,而且是經(jīng)過處理的,把一些真實(shí)的信息去掉,保護(hù)隱私。所以,數(shù)據(jù)有了,接下去,我們剛才說這個數(shù)據(jù)平臺,那是要錢的,現(xiàn)在錢也有了。這張照片是我周五剛剛拍的,在西二旗中關(guān)村軟件園,右邊旗桿這個地方的樓是北京市政府指定給云基地的,在云基地里面搞一個什么東西呢?叫集客共和國,GeekCafe,首先它是一個咖啡店,在里面干嗎?交流思想,思想是碰撞出來的。第二個叫GeekShow,實(shí)際上是一個展廳,大家做出來產(chǎn)品模型可以去販賣。第三個是GeekLab,大家可以坐下來在一起工作。我們搞這個東西干什么呢?我們實(shí)際上是想做一個實(shí)驗(yàn),這個實(shí)驗(yàn)首先是發(fā)現(xiàn)了大數(shù)據(jù)有什么價值;第二個是團(tuán)結(jié)這幫集客,這幫很牛的工程師,這幫人代表了能力;第三是一個不成熟的產(chǎn)品的原型。有了這三樣之后,我們就可以把需求、研究、投資、產(chǎn)品、市場幾樣要素串聯(lián)起來。所以,參與這個集客共和國的這些人,有學(xué)者、工程師、媒體、投資人,你開發(fā)一個東西,我們賣給大公司,由他開發(fā)產(chǎn)品,我們抽個
10%,15%GeekLab就可以養(yǎng)活了。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10