從去年開始,進入大數(shù)據(jù)時代,不管是互聯(lián)網(wǎng)行業(yè)還是其他行業(yè),“大數(shù)據(jù)”一詞開始頻繁出現(xiàn)。大數(shù)據(jù)僅僅是概念,還是有實用性工具?
“概念”性質(zhì)的東西在中國的互聯(lián)網(wǎng)圈子總是可以快速傳播,這里面有很多原因,其中就有整體氛圍所致:大多數(shù)互聯(lián)網(wǎng)的創(chuàng)業(yè)者都是希望通過前瞻性的 創(chuàng)新來改變世界,受到資本追捧,最終套現(xiàn)。在這個過程中,概念飛快的傳播、包裝,成為各種打著標(biāo)簽的產(chǎn)品。而實用主義者只被動接受,缺乏正確認(rèn)知深刻的探 索。
從下圖可以看出,2008年大數(shù)據(jù)概念開始傳播后,在百度和Google的“大數(shù)據(jù)”和“Big Data”的檢索趨勢(下圖數(shù)據(jù)中Baidu的PV加權(quán)處理,和Google相等同來體現(xiàn)趨勢對比):
大數(shù)據(jù)這詞,百度的中文檢索的爆炸性遠遠高出英文的Google檢索。
這就是硅谷臭名昭著的技術(shù)成熟度曲線(炒作周期),而在國內(nèi)互聯(lián)網(wǎng)行業(yè)被傳承和發(fā)揚的更厲害。
開個玩笑:“目前的大數(shù)據(jù)在國內(nèi),就好比是一堆青春期的孩子在談?wù)摗靶浴保總€人都喜歡談,如果不談就好像自己不正常,但只是很少人真正有經(jīng)驗。真正有經(jīng)驗的,卻又閉口不言,笑笑而已”。互聯(lián)網(wǎng)行業(yè)發(fā)展迅速,這些孩子早晚都會成人,但是目前為止,絕大多數(shù)受益者只是那些打著標(biāo)簽的廠商,就好比賣給青春期孩子非法出版物的商販。
大數(shù)據(jù)到底是什么?
那到底什么是大數(shù)據(jù)呢?大數(shù)據(jù)僅僅是個概念還是有真正的未來呢?
首先,所有的數(shù)據(jù)的作用,都是尋找規(guī)律。
唯物主義辯證法說:世界是物質(zhì)的,物質(zhì)是運動的,運動是有規(guī)律的,而規(guī)律是可以掌握的。不管是最早的統(tǒng)計學(xué),計算機出現(xiàn)后的數(shù)據(jù)分析,數(shù)據(jù)挖掘,以及到現(xiàn)在的大數(shù)據(jù)。我們都是在探索世界中的規(guī)律,試圖通過規(guī)律來了解這個世界。
在沒有出現(xiàn)計算機和互聯(lián)網(wǎng)的時代,前輩科學(xué)家奠定了數(shù)學(xué)和統(tǒng)計學(xué)的基礎(chǔ)。計算機出現(xiàn)后,對數(shù)據(jù)的存儲和計算能力大幅度增加,整理和分析數(shù)據(jù)的能力也在大大增加。而互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展,讓搜集的手段進一步豐富,數(shù)據(jù)量大大增加。通過數(shù)據(jù)找規(guī)律的這個游戲也在不斷的豐富。
這個過程,數(shù)據(jù)一方面越來越大,另一方面越來越“小”的,怎么說呢:這個過程的進化可以簡單的說成“對整體樣本的覆蓋” 和“對微觀數(shù)據(jù)價值的發(fā)掘”。數(shù)據(jù)的精髓在于抽樣和模型,因為技術(shù)手段不可能獲取所有的對象特征,只能通過部分模擬全部,通過抽象模型來描述對象。而計算 機和互聯(lián)網(wǎng)出現(xiàn)后,對信息獲取能力,和對數(shù)據(jù)的分析和挖掘能力大大加強,對試圖探索的樣本覆蓋越來越大,而對對象本身的描述越來越細致。
好比我們想知道這一車蘋果的質(zhì)量。以前只隨機抽樣100個,看看外觀有沒有生蟲壞損;現(xiàn)在抽樣7000個,每一個蘋果用30多項數(shù)據(jù)來描述蘋果特征和質(zhì)量。以后不需要抽樣了100%的都獲取數(shù)據(jù),然后每個蘋果100多項數(shù)據(jù)描述特征和質(zhì)量,甚至整個生長周期數(shù)據(jù)。
但是不管是統(tǒng)計學(xué),數(shù)據(jù)分析,數(shù)據(jù)挖掘,還是現(xiàn)在的大數(shù)據(jù)。我們的任務(wù)自始至終沒有變化:通過收集、整理、分析數(shù)據(jù)等手段,來尋找規(guī)律、推斷本質(zhì)、甚至預(yù)測未來。
不管在任何一個階段,這個任務(wù)都是有局限的,我們僅僅可以推測對象本質(zhì)的一部分而不是全部。在技術(shù)手段發(fā)展到一定階段可以產(chǎn)生新的技術(shù)和方法論,也可以在推測和預(yù)測上更近一步,走出的這一步可以大大提高生產(chǎn)力,這也是大數(shù)據(jù)的價值所在。
具體的行業(yè)中舉例
接下來我們選擇一個更容易抽象舉例的行業(yè)來說明:籃球(NBA)。
在NBA的早期,由于商業(yè)化程度不夠,對一場比賽的數(shù)據(jù)統(tǒng)計非常有限,不管是球員、教練、或者球隊經(jīng)理對球員的認(rèn)識都是在一種直覺上,或是最基礎(chǔ)的一些統(tǒng)計。
1986年NBA開始了完整的數(shù)據(jù)統(tǒng)計。所以現(xiàn)在的新聞都愛用:“自從1986有統(tǒng)計以來,這是第N個球員單場打出xxx數(shù)據(jù)……”NBA的統(tǒng)計正式進入了現(xiàn)代,數(shù)據(jù)庫技術(shù)的成功應(yīng)用,讓你可以從www.nba.com 隨意找到歷史數(shù)據(jù)。
也從這一天起,另一個話題浮現(xiàn)了。正如我們喜歡把武俠小說人物武藝列高低、列座次,數(shù)據(jù)完整化之后,大量的數(shù)據(jù)引用成了媒體的新愛好。于是, “得分利器”、“防守悍將”、“投籃大師”這些詞匯,逐漸被“每場能得多少分”、“完成多少個籃板+封蓋”、“投籃命中率”等覆蓋了。所有的球迷都開始喜 歡數(shù)據(jù)了。
但是只看數(shù)據(jù),又會很難理解:年輕時的馬布里,一個場均20分7.6助攻的人,怎么會被叫做獨狼?看數(shù)據(jù),會難以理解,鮑文這個數(shù)據(jù)平淡無奇, 搶斷毫不華麗的家伙,防守卻遠比兩屆搶斷王魔術(shù)師強大得多?又怎么能理解, 斯塔德邁爾職業(yè)生涯場均8.8籃板1.4蓋帽,加內(nèi)特在凱爾特人也就場均8.9籃板1.4蓋帽,但KG的防守和斯塔德邁爾,那就是天壤之別呢?
實際上,就是因為數(shù)據(jù)太單一,對球員的微觀數(shù)據(jù)的描述太少,根本無法只用數(shù)據(jù)來描述一個球員在球場上發(fā)揮的作用或者特點。
21世紀(jì),細節(jié)化微觀數(shù)據(jù)越來越多的被融入NBA,專業(yè)的NBA數(shù)據(jù)挖掘公司Synergy Sports出現(xiàn)了?!禨I》披露過一份籃球之神喬丹的專業(yè)統(tǒng)計:公牛80.2%的進攻要經(jīng)他之手; 83.9%的投籃是跳投;54.3%的投籃來自于球場右側(cè);17%的進攻來自拉開單打;單打時運2.67步后拔起跳投;對手干擾到位情況下,命中率是 46.3%;等等。
到了這一地步,數(shù)據(jù)開始進入到新的時代。而今年的NBA季后賽,美國媒體開始把場均奔跑距離,速度,最快速度等等也加入到了分析的維度。新的技術(shù)手段加大了微觀數(shù)據(jù)價值的發(fā)掘。也許我們可以稱之為:大數(shù)據(jù)。
正確的看待大數(shù)據(jù)
數(shù)據(jù)的確不會說謊。但要精準(zhǔn)說明一件事,需要足夠多的數(shù)據(jù),和足夠微觀的挖掘。但數(shù)據(jù),永遠不會足夠多。例如籃球比賽,數(shù)據(jù)與感知,會永遠的交 織下去。越來越多的數(shù)據(jù)模型,會給出無限接近印象的結(jié)果;但是當(dāng)數(shù)據(jù)或感知任何一方一統(tǒng)天下時,談?wù)摶@球,也就不復(fù)有樂趣了。而不論對數(shù)據(jù)多么了解,也需 要教練設(shè)計戰(zhàn)術(shù)、發(fā)揮球員特定,激勵團隊士氣,才能贏得比賽,數(shù)據(jù)本身不會“贏球”。
大數(shù)據(jù)是一種進步,但是我們完全沒有必要神話,更沒有必要妖魔化。大數(shù)據(jù)是一種概念,也只是我們認(rèn)知世界發(fā)展到目前階段順理成章的產(chǎn)物。理智的看待大數(shù)據(jù),讓好的為生產(chǎn)和研究服務(wù),更多的發(fā)揮我們自己的創(chuàng)新性和主觀能動性,會更有價值。