
大數(shù)據(jù)時(shí)代,別讓思維方式拖你后腿
或許你已經(jīng)感受到了,大數(shù)據(jù)和人工智能正在對(duì)我們的生活產(chǎn)生影響。在朋友們留言中,不乏有人對(duì)未來(lái)表達(dá)了擔(dān)憂。你是否對(duì)你自己所處的世界洞若觀火?如果不是,那么就來(lái)聽(tīng)聽(tīng)吳軍博士怎么說(shuō)。
這個(gè)時(shí)代屬于大數(shù)據(jù)
計(jì)算機(jī)在解決各種智能問(wèn)題上的進(jìn)步幅度并不大,但是十幾年量的積累,最終促成了質(zhì)變。
簡(jiǎn)單地講,當(dāng)時(shí)無(wú)論是做語(yǔ)音識(shí)別、機(jī)器翻譯、圖像識(shí)別,還是自然語(yǔ)言理解的學(xué)者,分成了界限很明確的兩派,一派堅(jiān)持采用傳統(tǒng)的人工智能方法解決問(wèn)題,簡(jiǎn)單來(lái)講就是模仿人,另一派在倡導(dǎo)數(shù)據(jù)驅(qū)動(dòng)方法。這兩派在不同的領(lǐng)域力量不一樣,在語(yǔ)音識(shí)別和自然語(yǔ)言理解領(lǐng)域,提倡數(shù)據(jù)驅(qū)動(dòng)的派比較快地占了上風(fēng);而在圖像識(shí)別和機(jī)器翻譯方面,在較長(zhǎng)時(shí)間里,數(shù)據(jù)驅(qū)動(dòng)這一派處于下風(fēng)。
這里面主要的原因是,在圖像識(shí)別和機(jī)器翻譯領(lǐng)域,過(guò)去的數(shù)據(jù)量非常少,而這種數(shù)據(jù)的積累非常困難。圖像識(shí)別就不用講了,在互聯(lián)網(wǎng)出現(xiàn)之前,沒(méi)有一個(gè)實(shí)驗(yàn)室有上百萬(wàn)張圖片。在機(jī)器翻譯領(lǐng)域,所需要的數(shù)據(jù)除了一般的文本數(shù)據(jù),還需要大量的雙語(yǔ)(甚至是多語(yǔ)種)對(duì)照的數(shù)據(jù),而在互聯(lián)網(wǎng)出現(xiàn)之前,除了《圣經(jīng)》和少量聯(lián)合國(guó)文件,再也找不到類似的數(shù)據(jù)了。
在20世紀(jì)90年代互聯(lián)網(wǎng)興起之后,數(shù)據(jù)的獲取變得非常容易。從1994年到2004年的10年里,語(yǔ)音識(shí)別的錯(cuò)誤率減少了一半,而機(jī)器翻譯的準(zhǔn)確性提高了一倍,其中20%左右的貢獻(xiàn)來(lái)自方法的改進(jìn),80%則來(lái)自數(shù)據(jù)量的提升。雖然在每一年,計(jì)算機(jī)在解決各種智能問(wèn)題上的進(jìn)步幅度并不大,但是十幾年量的積累,最終促成了質(zhì)變。
數(shù)據(jù)驅(qū)動(dòng)方法從20世紀(jì)70年代開(kāi)始起步,在八九十年代得到緩慢但穩(wěn)步的發(fā)展。進(jìn)入21世紀(jì)后,由于互聯(lián)網(wǎng)的出現(xiàn),使得可用的數(shù)據(jù)量劇增,數(shù)據(jù)驅(qū)動(dòng)方法的優(yōu)勢(shì)越來(lái)越明顯,最終完成了從量變到質(zhì)變的飛躍。如今很多需要類似人類智能才能做的事情,計(jì)算機(jī)已經(jīng)可以勝任了,這得益于數(shù)據(jù)量的增加。
全世界各個(gè)領(lǐng)域數(shù)據(jù)不斷向外擴(kuò)展,漸漸形成了另外一個(gè)特點(diǎn),那就是很多數(shù)據(jù)開(kāi)始出現(xiàn)交叉,各個(gè)維度的數(shù)據(jù)從點(diǎn)和線漸漸連成了網(wǎng),或者說(shuō),數(shù)據(jù)之間的關(guān)聯(lián)性極大地增強(qiáng),在這樣的背景下,就出現(xiàn)了大數(shù)據(jù)。
智能手機(jī)和互聯(lián)網(wǎng)將繼續(xù)改變世界
大數(shù)據(jù)的時(shí)效性其實(shí)不是必需的,但是有了時(shí)效性可以做到很多過(guò)去做不到的事情,城市的智能交通管理便是一個(gè)例子。在智能手機(jī)和智能汽車(chē)(特斯拉等)出現(xiàn)之前,世界上的很多大城市雖然都有交通管理(或者控制)中心,但是它們能夠得到的交通路況信息最快也有20分鐘滯后。如果沒(méi)有能夠跟蹤足夠多的人出行情況的實(shí)時(shí)信息的工具,一個(gè)城市即使部署再多的采樣觀察點(diǎn),再頻繁地報(bào)告各種交通事故和擁堵的情況,整體交通路況信息的實(shí)時(shí)性也不會(huì)比2007年有多大改進(jìn)。
但是,在能夠定位的智能手機(jī)出現(xiàn)后,這種情況得到了根本的改變。由于智能手機(jī)足夠普及并且大部分用戶開(kāi)放了他們的實(shí)時(shí)位置信息(符合大數(shù)據(jù)的完備性),使得做地圖服務(wù)的公司,比如Google或者百度,有可能實(shí)時(shí)地得到任何一個(gè)人口密度較大的城市的人員流動(dòng)信息,并且根據(jù)其流動(dòng)的速度和所在的位置,很容易區(qū)分步行的人群和行進(jìn)的汽車(chē)。
由于收集信息的公司和提供地圖服務(wù)的公司是一家,因此從數(shù)據(jù)采集、數(shù)據(jù)處理,到信息發(fā)布中間的延時(shí)微乎其微,所提供的交通路況信息要及時(shí)得多。使用過(guò)Google地圖服務(wù)或者百度地圖服務(wù)的人,對(duì)比六七年前,都很明顯地感到了其中的差別。當(dāng)然,更及時(shí)的信息可以通過(guò)分析歷史數(shù)據(jù)來(lái)預(yù)測(cè)。一些科研小組和公司的研發(fā)部門(mén),已經(jīng)開(kāi)始利用一個(gè)城市交通狀況的歷史數(shù)據(jù),結(jié)合實(shí)時(shí)數(shù)據(jù),預(yù)測(cè)一段時(shí)間以內(nèi)(比如一個(gè)小時(shí))該城市各條道路可能出現(xiàn)的交通狀況,并且?guī)椭鲂姓咭?guī)劃最好的出行路線。
仔細(xì)推敲英語(yǔ)中bigdata這種說(shuō)法,我們不得不承認(rèn)這個(gè)提法非常準(zhǔn)確,它最重要的是傳遞了一種信息——大數(shù)據(jù)是一種思維方式的改變?,F(xiàn)在的數(shù)據(jù)量相比過(guò)去大了很多,量變帶來(lái)了質(zhì)變,思維方式、做事情的方法就應(yīng)該和以往有所不同。這其實(shí)是幫助我們理解大數(shù)據(jù)概念的一把鑰匙。在有大數(shù)據(jù)之前,計(jì)算機(jī)并不擅長(zhǎng)解決需要人類智能來(lái)解決的問(wèn)題,但是今天這些問(wèn)題換個(gè)思路就可以解決了,其核心就是變智能問(wèn)題為數(shù)據(jù)問(wèn)題。由此,全世界開(kāi)始了新的一輪技術(shù)革命——智能革命。
大數(shù)據(jù)更是一種思維方式革命
在方法論的層面,大數(shù)據(jù)是一種全新的思維方式。按照大數(shù)據(jù)的思維方式,我們做事情的方式與方法需要從根本上改變。
要說(shuō)清楚大數(shù)據(jù)思維的重要性,需要先回顧一下自17世紀(jì)以來(lái)一直指導(dǎo)我們?cè)怀W鍪滦袨榈南惹白钪匾囊环N思維方式一一機(jī)械思維。今天說(shuō)起機(jī)械思維,很多人馬上想到的是死板、僵化,覺(jué)得非常落伍,甚至「機(jī)械」本身都算不上什么好詞。但是在兩個(gè)世紀(jì)之前,這可是一個(gè)時(shí)髦的詞,就如同今天我們說(shuō)互聯(lián)網(wǎng)思維、大數(shù)據(jù)思維很時(shí)髦一樣??梢院敛豢鋸埖貨G,在過(guò)去的三個(gè)多世紀(jì)里,機(jī)械思維可以算得上是人類總結(jié)出的最重要的思維方式,也是現(xiàn)代文明的基礎(chǔ)。今天,很多人的行為方式和思維方式其實(shí)依然沒(méi)有擺脫機(jī)械思維,盡管他們嘴上談?wù)摰氖歉鼤r(shí)髦的概念。
那么,機(jī)械思維是如何產(chǎn)生的?為什么它的影響力能夠延伸至今,它和我們將要討論的大數(shù)據(jù)思維又有什么關(guān)聯(lián)和本質(zhì)區(qū)別呢?
不論經(jīng)濟(jì)學(xué)家還是之前的托勒密、牛頓等人,他們都遵循著機(jī)械思維。如果我們把他們的方法論做一個(gè)簡(jiǎn)單的概括,其核心思想有如下兩點(diǎn):首先,需要有一個(gè)簡(jiǎn)單的元模型,這個(gè)模型可能是假設(shè)出來(lái)的,然后再用這個(gè)元模型構(gòu)建復(fù)雜的模型;其次,整個(gè)模型要和歷史數(shù)據(jù)相吻合。這在今天動(dòng)態(tài)規(guī)劃管理學(xué)上還被廣泛地使用,其核心思想和托勒密的方法論是一致的。
后來(lái)人們將牛頓的方法論概括為機(jī)械思維,其核心思想可以概括成這樣幾句話:
第一,世界變化的規(guī)律是確定的,這一點(diǎn)從托勒密到牛頓大家都認(rèn)可。
第二,因?yàn)橛写_定性做保障,因此規(guī)律不僅是可以被認(rèn)識(shí)的,而且可以用簡(jiǎn)單的公式或者語(yǔ)言描述清楚。這一點(diǎn)在牛頓之前,大部分人并不認(rèn)可,而是簡(jiǎn)單地把規(guī)律歸結(jié)為神的作用。
第三,這些規(guī)律應(yīng)該是放之四海而皆準(zhǔn)的,可以應(yīng)用到各種未知領(lǐng)域指導(dǎo)實(shí)踐,這種認(rèn)識(shí)是在牛頓之后才有的。
這些其實(shí)是機(jī)械思維中積極的部分。機(jī)械思維更廣泛的影響力是作為一種準(zhǔn)則指導(dǎo)人們的行為,其核心思想可以概括成確定性(或者可預(yù)測(cè)性)和因果關(guān)系。牛頓可以把所有天體運(yùn)動(dòng)的規(guī)律用幾個(gè)定律講清楚,并且應(yīng)用到任何場(chǎng)合都是正確的,這就是確定性。類似地,當(dāng)我們給物體施加一個(gè)外力時(shí),它就獲得一個(gè)加速度,而加速度的大小取決于外力和物體本身的質(zhì)量,這是一種因果關(guān)系。沒(méi)有這些確定性和因果關(guān)系,我們就無(wú)法認(rèn)識(shí)世界。
從牛頓開(kāi)始,人類社會(huì)的進(jìn)步在很大程度上得益于機(jī)械思維,但是到了信息時(shí)代,它的局限性也越來(lái)越明顯。首先,并非所有的規(guī)律都可以用簡(jiǎn)單的原理描述;其次,像過(guò)去那樣找到因果關(guān)系已經(jīng)變得非常困難,因?yàn)楹?jiǎn)單的因果關(guān)系規(guī)律性都被發(fā)現(xiàn)了。另外,隨著人類對(duì)世界認(rèn)識(shí)得越來(lái)越清楚,人們發(fā)現(xiàn)世界本身存在著很大的不確定性,并非如過(guò)去想象的那樣一切都是可以確定的。因此,在現(xiàn)代社會(huì)里,人們開(kāi)始考慮在承認(rèn)不確定性的情況下如何取得科學(xué)上的突破,或者把事情做得更好。這也就導(dǎo)致一種新的方法論誕生。
不確定性在我們的世界里無(wú)處不在。我們經(jīng)??梢钥吹竭@樣一種怪現(xiàn)象,很多時(shí)候?qū)<覀儗?duì)未來(lái)各種趨勢(shì)的預(yù)測(cè)是錯(cuò)的,這在金融領(lǐng)域尤其常見(jiàn)。如果讀者有心統(tǒng)計(jì)一些經(jīng)濟(jì)學(xué)家們對(duì)未來(lái)的看法,就會(huì)發(fā)現(xiàn)它們基本上是對(duì)錯(cuò)各一半。這并不是因?yàn)樗麄內(nèi)狈I(yè)知識(shí),而是由于不確定性是這個(gè)世界的重要特征,以至于我們按照傳統(tǒng)的方法——機(jī)械論的方法難以做出準(zhǔn)確的預(yù)測(cè)。
世界的不確定性來(lái)自兩方面,首先是當(dāng)我們對(duì)這個(gè)世界的方方面面了解得越來(lái)越細(xì)致之后,會(huì)發(fā)現(xiàn)影響世界的變量其實(shí)非常多,已經(jīng)無(wú)法通過(guò)簡(jiǎn)單的辦法或者公式算出結(jié)果,因此我們寧愿采用一些針對(duì)隨機(jī)事件的方法來(lái)處理它們,人為地把它們歸為不確定的一類。
反映出在信息時(shí)代的方法論:誰(shuí)掌握了信息,誰(shuí)就能夠獲取財(cái)富,這就如同在工業(yè)時(shí)代,誰(shuí)掌握了資本誰(shuí)就能獲取財(cái)富一樣。
當(dāng)然,用不確定性這種眼光看待世界,再用信息消除不確定性,不僅能夠賺錢(qián),而且能夠把很多智能型的問(wèn)題轉(zhuǎn)化成信息處理的問(wèn)題,具體說(shuō),就是利用信息來(lái)消除不確定性的問(wèn)題。比如下象棋,每一種情況都有幾種可能,卻難以決定最終的選擇,這就是不確定性的表現(xiàn)。再比如要識(shí)別一個(gè)人臉的圖像,實(shí)際上可以看成是從有限種可能性中挑出一種,因?yàn)槿澜绲娜藬?shù)是有限的,這也就把識(shí)別問(wèn)題變成了消除不確定性的問(wèn)題。
大數(shù)據(jù)的本質(zhì)
首先我們必須承認(rèn)世界的不確定性,這樣我們就不會(huì)采用確定性的思維方式去面對(duì)一個(gè)不確定性的世界。當(dāng)我們了解到信息或者說(shuō)數(shù)據(jù)能夠消除不確定性之后,便能理解為什么大數(shù)據(jù)的出現(xiàn)能夠解決那些智能的問(wèn)題,因?yàn)楹芏嘀悄軉?wèn)題從根本上來(lái)講無(wú)非是消除不確定性的問(wèn)題。對(duì)于前面提到的大數(shù)據(jù)的三個(gè)特征,即數(shù)據(jù)量大、多維度和完備性。在這個(gè)基礎(chǔ)之上,我們就能夠講清楚大數(shù)據(jù)的本質(zhì)。
先談?wù)剶?shù)據(jù)量的問(wèn)題。在過(guò)去,由于數(shù)據(jù)量不夠,即使使用了數(shù)據(jù),依然不足以消除不確定性,因此數(shù)據(jù)的作用其實(shí)很有限,很多人忽視它的重要性是必然的。在那種情況下,哪個(gè)領(lǐng)域先積攢下足夠多的數(shù)據(jù),它的研究進(jìn)展就顯得快一些。具體到機(jī)器智能方面,語(yǔ)音識(shí)別是最早獲得比較多數(shù)據(jù)的領(lǐng)域,因此數(shù)據(jù)驅(qū)動(dòng)的方法從這個(gè)領(lǐng)域產(chǎn)生也就不足為奇了。
關(guān)于大數(shù)據(jù)多維度的重要性問(wèn)題,可以從兩個(gè)角度來(lái)看待它。第一個(gè)視角是「互信息」,為了獲得相關(guān)性通常需要多個(gè)維度的信息。比如我們要統(tǒng)計(jì)「央行調(diào)整利息」和「股市波動(dòng)」的相關(guān)性,只有歷史上央行調(diào)整利息一個(gè)維度的信息顯然是不夠的,需要上述兩個(gè)維度的信息同時(shí)出現(xiàn)。第二個(gè)視角是所謂的「交叉驗(yàn)證」,我們不妨看這樣一個(gè)例子:夏天的時(shí)候,如果我們感覺(jué)很悶熱,就知道可能要下雨了。也就是說(shuō),「空氣濕度較高」和「24小時(shí)內(nèi)要下雨」之間的互信息較大。但是,這件事并非很確定,因?yàn)橛行r(shí)候濕度大卻沒(méi)有下雨。不過(guò),如果結(jié)合氣壓信息、云圖信息等其他維度的信息,也能驗(yàn)證「24小時(shí)內(nèi)要下雨」這件事,那么預(yù)測(cè)的準(zhǔn)確性就要大很多。
最后,我們從信息論的角度來(lái)看看數(shù)據(jù)完備性的重要性。在大數(shù)據(jù)時(shí)代,在某個(gè)領(lǐng)域里獲得數(shù)據(jù)的完備性還是可能的。比如在過(guò)去把全國(guó)所有人的面孔收集全是一件不可想象的事情,但是今天這件事情完全能做到。當(dāng)數(shù)據(jù)的完備性具備了之后,就相當(dāng)于訓(xùn)練模型的數(shù)據(jù)集合和使用這個(gè)模型的測(cè)試集合是同一個(gè)集合,或者是高度重復(fù)的。在這種情況下,就不會(huì)出現(xiàn)覆蓋不了很多小概率事件的災(zāi)難。
這樣數(shù)據(jù)驅(qū)動(dòng)才具有普遍性,而不再是時(shí)靈時(shí)不靈的方法論。由此可見(jiàn),大數(shù)據(jù)的科學(xué)基礎(chǔ)是信息論,它的本質(zhì)就是利用信息消除不確定性。雖然人類使用信息由來(lái)已久,但是到了大數(shù)據(jù)時(shí)代,量變帶來(lái)質(zhì)變,以至于人們忽然發(fā)現(xiàn),采用信息論的思維方式可以讓過(guò)去很多難題迎刃而解。
互聯(lián)網(wǎng)公司的爭(zhēng)奪和大數(shù)據(jù)應(yīng)用
今天,各個(gè)搜索引擎都有一個(gè)度量用戶點(diǎn)擊數(shù)據(jù)和搜索結(jié)果相關(guān)性的模型,通常被稱為「點(diǎn)擊模型」。隨著數(shù)據(jù)量的積累,點(diǎn)擊模型對(duì)搜索結(jié)果排名的預(yù)測(cè)越來(lái)越準(zhǔn)確,它的重要性也越來(lái)越大。今天,它在搜索排序中至少占70%~80%的權(quán)重,也就是說(shuō)搜索算法中其他所有的因素加起來(lái)都不如它重要。換句話說(shuō),在今天的搜索引擎中,因果關(guān)系已經(jīng)沒(méi)有數(shù)據(jù)的相關(guān)性重要了。
當(dāng)然,點(diǎn)擊模型的準(zhǔn)確性取決于數(shù)據(jù)量的大小。對(duì)于常見(jiàn)的搜索,比如「虛擬現(xiàn)實(shí)」,積累足夠多的用戶點(diǎn)擊數(shù)據(jù)并不需要太長(zhǎng)的時(shí)間。但是,對(duì)于那些不太常見(jiàn)的搜索(通常也被稱為長(zhǎng)尾搜索),比如「畢加索早期作品介紹」,需要很長(zhǎng)的時(shí)間才能收集到「足夠多的數(shù)據(jù)」來(lái)訓(xùn)練模型。一個(gè)搜索引擎使用的時(shí)間越長(zhǎng),數(shù)據(jù)的積累就越充分,對(duì)于這些長(zhǎng)尾搜索就做得越準(zhǔn)確。微軟的搜索引擎在很長(zhǎng)的時(shí)間里做不過(guò)Google的主要原因并不在于算法本身,而是因?yàn)槿狈?shù)據(jù)。同樣的道理,在中國(guó),搜狗等小規(guī)模的搜索引擎相對(duì)百度最大的劣勢(shì)也在于數(shù)據(jù)量上。
當(dāng)整個(gè)搜索行業(yè)都意識(shí)到點(diǎn)擊數(shù)據(jù)的重要性后,這個(gè)市場(chǎng)上的競(jìng)爭(zhēng)就從技術(shù)競(jìng)爭(zhēng)變成了數(shù)據(jù)競(jìng)爭(zhēng)。這時(shí),各公司的商業(yè)策略和產(chǎn)品策略就都圍繞著獲取數(shù)據(jù)、建立相關(guān)性而開(kāi)展了。后進(jìn)入搜索市場(chǎng)的公司要想不坐以待斃,唯一的辦法就是快速獲得數(shù)據(jù)。
比如微軟通過(guò)接手雅虎的搜索業(yè)務(wù),將必應(yīng)的搜索量從原來(lái)Google的10%左右陡然提升到Google的20%?30%,點(diǎn)擊模型估計(jì)得準(zhǔn)確了許多,搜索質(zhì)量迅速提高。但是即使做到這一點(diǎn)還是不夠的,因此一些公司想出了更激進(jìn)的辦法,通過(guò)搜索條(Toolbar)、瀏覽器甚至輸入法來(lái)收集用戶的點(diǎn)擊行為。這種辦法的好處在于它不僅可以收集到用戶使用該公司搜索引擎本身的點(diǎn)擊數(shù)據(jù),而且還能收集用戶使用其他搜索引擎的數(shù)據(jù),比如微軟通過(guò)舊瀏覽器收集用戶使用Google搜索時(shí)的點(diǎn)擊情況。
這樣一來(lái),如果一家公司能夠在瀏覽器市場(chǎng)占很大的份額,即使它的搜索量很小,也能收集大量的數(shù)據(jù)。有了這些數(shù)據(jù),尤其是用戶在更好的搜索引擎上的點(diǎn)擊數(shù)據(jù),一家搜索引擎公司可以快速改進(jìn)長(zhǎng)尾搜索的質(zhì)量。當(dāng)然,有人詬病必應(yīng)的這種做法是「抄」Google的搜索結(jié)果,其實(shí)它并沒(méi)有直接抄,而是用Google的數(shù)據(jù)改進(jìn)自己的點(diǎn)擊模型。這種事情在中國(guó)市場(chǎng)上也是一樣,因此,搜索質(zhì)量的競(jìng)爭(zhēng)就成了瀏覽器或者其他客戶端軟件市場(chǎng)占有率的競(jìng)爭(zhēng)。雖然在外人看來(lái)這些互聯(lián)網(wǎng)公司競(jìng)爭(zhēng)的是技術(shù),但更準(zhǔn)確地講,它們是在數(shù)據(jù)層面競(jìng)爭(zhēng)。
很多時(shí)候,落后與先進(jìn)的差距,不是購(gòu)買(mǎi)一些機(jī)器或者引進(jìn)一些技術(shù)就能夠彌補(bǔ)的,落后最可怕的地方是思維方式的落后。西方在近代走在了世界前列,很大程度上靠的是思維方式全面領(lǐng)先。
機(jī)械思維曾經(jīng)是改變了人類工作方式的革命性的方法論,并且在工業(yè)革命和后來(lái)全球工業(yè)化的過(guò)程中起到了決定性的作用,今天它在很多地方依然能指導(dǎo)我們的行動(dòng)。如果我們能夠找到確定性(或者可預(yù)測(cè)性)和因果關(guān)系,這依然是最好的結(jié)果。但是,今天我們面臨的復(fù)雜情況,已經(jīng)不是機(jī)械時(shí)代用幾個(gè)定律就能講清楚的了,不確定性,或者說(shuō)難以找到確定性,是今天社會(huì)的常態(tài)。在無(wú)法確定因果關(guān)系時(shí),數(shù)據(jù)為我們提供了解決問(wèn)題的新方法,數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性,而數(shù)據(jù)之間的相關(guān)性在某種程度上可以取代原來(lái)的因果關(guān)系,幫助我們得到我們想知道的答案,這便是大數(shù)據(jù)思維的核心。
大數(shù)據(jù)思維和原有機(jī)械思維并非完全對(duì)立,它更多的是對(duì)后者的補(bǔ)充。在新的時(shí)代,一定需要新的方法論,也一定會(huì)產(chǎn)生新的方法論。
在有大數(shù)據(jù)之前,我們尋找一個(gè)規(guī)律常常是很困難的,經(jīng)常要經(jīng)歷「假設(shè)——求證——再假設(shè)——再求證」這樣一個(gè)漫長(zhǎng)的過(guò)程,而在找到規(guī)律后,應(yīng)用到個(gè)案上的成本可能也是很高的。但是,有了大數(shù)據(jù)之后,這一類問(wèn)題就變得簡(jiǎn)單了。
比如通過(guò)對(duì)大量數(shù)據(jù)的統(tǒng)計(jì)直接找到正常用電模式和納稅模式,然后圈定那些用電模式異常的大麻種植者,或者有嫌疑的偷漏稅者。由于這種方法采用的是機(jī)器學(xué)習(xí),依靠的是機(jī)器智能,大大降低了人工成本,因此執(zhí)行的成本非常低。在美國(guó)有大量類似的報(bào)道,在各種媒體上都可以看到。
在大數(shù)據(jù)出現(xiàn)之前,并非我們得不到信息直接的關(guān)聯(lián)性,而是需要花費(fèi)很長(zhǎng)的時(shí)間才能收集到足夠多的數(shù)據(jù),然后再花費(fèi)更長(zhǎng)的時(shí)間來(lái)驗(yàn)證它,這也是過(guò)去大部分傳統(tǒng)的企業(yè)對(duì)于細(xì)節(jié)數(shù)據(jù)的收集和處理不是很重視的原因,相比之下他們更看重經(jīng)驗(yàn)和宏觀數(shù)據(jù)。但是到了大數(shù)據(jù)時(shí)代,這些企業(yè)的觀念也在慢慢轉(zhuǎn)變。
亞馬遜的優(yōu)勢(shì)在于它擁有顧客全面的信息。比如張三上周買(mǎi)了一臺(tái)數(shù)碼相機(jī),之前他還購(gòu)買(mǎi)了幾個(gè)玩具,同一個(gè)地址的李四前兩天買(mǎi)了嬰兒用的浴液。那么可以聯(lián)想到張三和李四是一家人,他們有個(gè)出生不久的嬰兒,張三買(mǎi)數(shù)碼相機(jī)或許是為了給孩子照相。他們或許會(huì)對(duì)在線沖印照片(并做成賀年卡),或者電子相框有興趣。如果將他們的地址和美國(guó)個(gè)人住宅信息網(wǎng)站zillow.com聯(lián)系起來(lái),很容易了解到他們的住房?jī)r(jià)值,進(jìn)而估計(jì)出他們的收入。這些條件是沃爾瑪不具備的。亞馬遜的第三個(gè)優(yōu)勢(shì)在于它的任何市場(chǎng)策略都能馬上實(shí)現(xiàn),比如它能夠隨時(shí)捆綁商品,并且隨時(shí)調(diào)整價(jià)格進(jìn)行促銷;而美國(guó)所有的實(shí)體店,調(diào)整價(jià)格都需要在晚上關(guān)門(mén)之后進(jìn)行,因此即使它們數(shù)據(jù)挖掘的速度和亞馬遜一樣快(當(dāng)然這是不可能的),在市場(chǎng)上的反應(yīng)也跟不上亞馬遜這樣的電商公司。
前面的幾個(gè)例子無(wú)一不是先從大數(shù)據(jù)找到普遍規(guī)律,然后再應(yīng)用于每一個(gè)具體的用戶,并且影響到每一個(gè)具體的操作。以抓毒品種植和偷漏稅為例,警察局或者稅務(wù)局首先需要根據(jù)大數(shù)據(jù)了解用電或者納稅普遍的模式,然后要準(zhǔn)確地估算出每一個(gè)地址正常的模式,這樣就能夠發(fā)現(xiàn)每一個(gè)異常的情況。
對(duì)于互聯(lián)網(wǎng)公司的那些應(yīng)用也如此,那些公司可以對(duì)每一個(gè)用戶提供不同的服務(wù),甚至做到每一次的服務(wù)都不相同。比如電商公司在用戶瀏覽打印機(jī)或者電動(dòng)牙刷時(shí),如果發(fā)現(xiàn)他們?cè)陂喿x產(chǎn)品介紹和評(píng)價(jià),那么可能用戶尚未完成購(gòu)買(mǎi),推薦相應(yīng)的產(chǎn)品給用戶是合理的;而當(dāng)用戶完成購(gòu)買(mǎi)后,再搜索或?yàn)g覽這些產(chǎn)品,推薦給用戶打印機(jī)墨盒或電動(dòng)牙刷頭等耗材,就比推薦那些耐用產(chǎn)品本身更合理了。經(jīng)常在亞馬遜上購(gòu)物的人對(duì)這一點(diǎn)會(huì)有體會(huì),不僅不同的人看到的網(wǎng)頁(yè)內(nèi)容是不一樣的,而且同一個(gè)人今天和昨天看到的內(nèi)容也是不一樣的,尤其是在完成一些購(gòu)買(mǎi)行為之后。這種精細(xì)到每一次交易,甚至每一次內(nèi)容展示的服務(wù),在過(guò)去是想都不敢想的,但是靠大數(shù)據(jù)今天這已經(jīng)變成了可能,而且它還代表著未來(lái)商業(yè)的趨勢(shì)。
通過(guò)這件事我們也能進(jìn)一步體會(huì)大數(shù)據(jù)完備性的特點(diǎn)。在過(guò)去,統(tǒng)計(jì)學(xué)家們一直試圖尋找好的采樣方法,以便在有限的樣本中找到覆蓋盡可能全的規(guī)律,但是在大數(shù)據(jù)時(shí)代,這些努力都不需要了,因此樣本集可以等于全集。另外,我們還可以從這個(gè)案例中看到大數(shù)據(jù)時(shí)效性的特點(diǎn)。對(duì)于新的、過(guò)去沒(méi)有見(jiàn)過(guò)的情況,Google的服務(wù)器反應(yīng)是非常及時(shí)的,即在第二次就能把新鮮的數(shù)據(jù)提供給用戶使用,這在大數(shù)據(jù)時(shí)代之前也是做不到的。
Google在數(shù)據(jù)上的優(yōu)勢(shì),是大學(xué)和各個(gè)研究所并不具備的。即使是全球著名的汽車(chē)公司,包括豐田、大眾和美國(guó)通用,也不具備如此多的數(shù)據(jù)。因此,它們雖然在自動(dòng)駕駛汽車(chē)研制方面早起步幾十年,但是很快就被Google超越。另外,計(jì)算機(jī)學(xué)習(xí)「經(jīng)驗(yàn)」的速度遠(yuǎn)遠(yuǎn)比人快得多,這也是大數(shù)據(jù)多維度的優(yōu)勢(shì),因此Google自動(dòng)駕駛汽車(chē)的進(jìn)步才能如此快。這并非說(shuō)明Google的科研能力超過(guò)了過(guò)去那么多大學(xué)、研究所和公司的總和,反而是體現(xiàn)出大數(shù)據(jù)的威力,以及采用大數(shù)據(jù)思維的重要性。
讓我們談?wù)劷痫L(fēng)公司的故事。在和我進(jìn)行了多次關(guān)于大數(shù)據(jù)時(shí)代商業(yè)模式的探討后,該公司決定向IBM學(xué)習(xí),在商業(yè)模式上做根本性的轉(zhuǎn)變,主營(yíng)業(yè)務(wù)從風(fēng)力發(fā)電機(jī)的制造,轉(zhuǎn)變成發(fā)電設(shè)備的運(yùn)營(yíng)和服務(wù)。當(dāng)然,并非什么公司想做服務(wù)就能做得好并賺到錢(qián),金風(fēng)公司有底氣轉(zhuǎn)型,源于其在宏觀上對(duì)全球風(fēng)能市場(chǎng)的了解,在微觀上對(duì)每一臺(tái)風(fēng)能發(fā)電機(jī)運(yùn)營(yíng)細(xì)節(jié)的了解,加上通過(guò)大數(shù)據(jù)對(duì)發(fā)電機(jī)可能出現(xiàn)的問(wèn)題的分析,能夠比一般工程公司更有效地維護(hù)發(fā)電機(jī)。至于發(fā)電機(jī)的生產(chǎn),該公司只負(fù)責(zé)研制,然后將設(shè)備制造交給其他公司去做。這樣一來(lái),金風(fēng)公司就在風(fēng)力發(fā)電領(lǐng)域成功地復(fù)制了IBM服務(wù)的模式。大多數(shù)亞洲制造企業(yè)雖然在全球市場(chǎng)上占的份額不小,但是通常競(jìng)爭(zhēng)的手段就是壓低利潤(rùn)降價(jià),最后把整個(gè)行業(yè)變得都沒(méi)有利潤(rùn)。金風(fēng)公司轉(zhuǎn)型的做法,或許能給這些企業(yè)一些啟發(fā),當(dāng)然如果沒(méi)有大數(shù)據(jù)這樣的機(jī)遇,這種轉(zhuǎn)型是非常困難的。
與金風(fēng)公司面臨類似情況的還有諸多的電器生產(chǎn)廠商。這些電器無(wú)論是高端的還是低端的,廠家只能賺到一次錢(qián),而且由于亞洲制造業(yè)同行相互壓價(jià),利潤(rùn)也不可能很高。為了解決利潤(rùn)的問(wèn)題,一些對(duì)新技術(shù)敏感的公司想到了利用大數(shù)據(jù)和移動(dòng)互聯(lián)網(wǎng)來(lái)改變商業(yè)模式。
現(xiàn)有產(chǎn)業(yè)+摩爾定律=新產(chǎn)業(yè)
與前兩次工業(yè)革命類似,雖然信息革命的代表產(chǎn)品是計(jì)算機(jī)處理器,但是并不需要每一家公司都生產(chǎn)處理器,甚至不需要每一家公司自己開(kāi)發(fā)軟件。今天大部分公司使用的處理器只有兩個(gè)系列,即英特爾x86系列(加上AMD兼容產(chǎn)品)和英國(guó)ARM公司設(shè)計(jì)的RISC(精簡(jiǎn)指令集)處理器,因此計(jì)算機(jī)實(shí)際上可以被看成是一種資源,而大部分公司需要做的只是使用好這些資源而已。
我們回顧過(guò)去是為了展望未來(lái)。今后,由大數(shù)據(jù)引發(fā)的智能革命也將是以一種與前面幾次技術(shù)革命類似的方式展開(kāi),如果我們用兩個(gè)簡(jiǎn)單的公式來(lái)概括的話,那就是:
現(xiàn)有產(chǎn)業(yè)+大數(shù)據(jù)=新產(chǎn)業(yè)
現(xiàn)有產(chǎn)業(yè)+機(jī)器智能=新產(chǎn)業(yè)
摩爾定律和安迪-比爾定律到了智能手機(jī)時(shí)代照樣適用,我們就不贅述了。
通過(guò)上述對(duì)歷次技術(shù)革命中商業(yè)模式變遷的分析,我們可以得到這樣三個(gè)結(jié)論:
首先,技術(shù)革命導(dǎo)致商業(yè)模式的變化,尤其是新的商業(yè)模式的誕生。其次,生產(chǎn)越來(lái)越過(guò)剩,需求拉動(dòng)經(jīng)濟(jì)增長(zhǎng)的模式變得不可逆轉(zhuǎn)。同時(shí),單純制造業(yè)的利潤(rùn)越來(lái)越低,那些行業(yè)越來(lái)越?jīng)]有出路。相反,人們對(duì)服務(wù)的需求越來(lái)越強(qiáng)烈。
在IT時(shí)代,唱主角的公司逐漸從制造設(shè)備的IBM、愛(ài)立信、諾基亞和惠普等公司,變成了提供軟件和服務(wù)的微軟、甲骨文和Google等公司。最后,商業(yè)模式的變化既有繼承性,又有創(chuàng)新性。工業(yè)革命導(dǎo)致了產(chǎn)品需要靠推銷才能賣(mài)出去,第二次工業(yè)革命導(dǎo)致了廣告業(yè)的興起,推銷的方式從展示變成了做廣告,而這兩者之間是有聯(lián)系的。作為創(chuàng)新的一方面,第二次工業(yè)革命導(dǎo)致了商業(yè)鏈的出現(xiàn);到了信息時(shí)代,商業(yè)鏈得到了發(fā)展,這是繼承性的一面;而服務(wù)業(yè)的重要性突顯,這是其創(chuàng)新性的一面。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10