表面上來看,“大數據”概念的火爆可以歸結到邁爾-舍恩伯格寫的《大數據時代》和涂子沛寫的《大數據》。前者引爆了“大數據”的概念,并著重從社會變革的角度闡釋了數據思維的重要性。后者則更像是一部信息開放史,闡述了信息對于社會發(fā)展的影響程度。
其實,在很大程度上,“大數據”更像是一種以迎合方式制造的概念,好似生產中的定制化一樣,數據使用單位覺察到數據在決策和治理方面的重要性,又不知道該如何表達與之前的“信息社會”、“商業(yè)智能”等概念的區(qū)隔,“大數據”的登場對他們而言可謂是久旱逢甘霖,他鄉(xiāng)遇故知。
客觀來看,這兩位作者都沒有把大數據的概念清晰地闡述出來。在這里,之所以強調概念的重要性并非要教條化,而是出于對目前國內各行業(yè)對大數據的理解出現了亂象。幾乎所有企業(yè)都握著自己手里那些數據,躍躍欲試地說要迎接大數據時代。而他們中的大部分尚不知道自己的數據成色到底如何,更不知道如何分析與使用。
信息化社會的表征
倫敦大學社會學教授韋伯斯特眼中的“信息社會”并非僅僅是信息產量猛增的社會。他認為如果把信息從人類社會圖景中抹去的話,并不會有什么與過往社會圖景根本的區(qū)別。韋伯斯特說的并非毫無道理,因為當我們被各種符號包裹著的時候,總會希望它們能遠離自己。
因此,韋伯斯特認為“語義“是識別信息社會的重要標志,也就是信息本身所承載的意義。在韋伯斯特的眼里,語義是一個人文詞匯,對于信息的質量只能依靠一種精英式的直覺來判斷。比如,鮑德里亞就會認為信息變成了無意義的符號,我們最后所面對的不過是一個符號社會。但是,鮑德里亞所描述的就真的僅僅是消費社會而不是意義社會嗎?
2007年在哈佛大學舉行的“計算社會科學”研討會確立了“社會化計算”的地位。社會化計算源于社會化軟件的興起,如今,這類計算是基于社交網絡的數據結構。用戶之間的聯系程度,誰和誰的關系近了多少還是遠了多少,這是無法在第一時間用數據體現出來的。
社會化計算的功能就是把我們憑借意識判斷的過程數據化,但這一計算方式并沒有得到更多人的關注。社會化計算把韋伯斯特的“語義說”進行了科學量化,從而很好地彌補了人文與科學的縫隙。毫不夸張地說,信息社會的到來,應該是伴隨著社交網絡的崛起和社會化計算的應用。
從目前我們看到的關于大數據的各種描述,大數據與之前數據分析的很大不同是對于非結構性數據的重視與分析。所謂非結構性數據,恰恰更多地是以社交網絡為載體。哈爾濱工業(yè)大學專門從事社會化計算研究的丁效告訴筆者,他們小組最近基于社交網絡上的用戶情緒反應,做了一個預測首周電影票房的模型,準確率達到80%。而此前,他和他的導師同樣利用社會化計算的方式,畫出了一個新浪微博的消息樹,將信息引爆的路徑用圖形的方式展現了出來。顯然,社會化計算的預測功能更加符合人們對于大數據的期待。
如果說在社交網絡崛起之前,所謂的“工業(yè)社會”與“后工業(yè)社會”的區(qū)別是因為信息的激增導致了社會結構的方方面面出現了巨變,且呈現出了符號化的特征,那么在社交網絡崛起之后,社會化計算得以將各種符號背后的意義深度挖掘,尤其是用符號學無法合理闡釋的因果性在這里變成了網絡之下的相關性。進一步說,社會化計算讓信息社會的概念走出了實質性的一步。
大數據時代正是信息社會從“量”走向“質”的表征,或者說信息化社會在大數據時代才算是真正到來。
殊途同歸
革命性科學理念的推廣,往往離不開商業(yè)應用,因為商業(yè)化是實現技術閉環(huán)的最有效方式。前文提到的信息社會在大數據之前是處于“量”的時代,這還是一種概括性描述。在局部的商業(yè)領域,數據的價值分析早已經在上個世紀末展開,那時人們將其命名為“商業(yè)智能”(BI)。
數據分析的職能始終圍繞著“客戶關系管理”(CRM)搭建模型,主要解決兩個問題:客戶細分和預測。一位在國內較早為企業(yè)提供數據挖據和分析的工程師表示,數據分析是“商業(yè)智能”規(guī)劃中的一個部分,大數據只不過是豐富了“商業(yè)智能”的主題,也就是“商業(yè)智能”可以較以前做更多的事情了。他認為,“大數據”有別于之前的數據分析,是因為數據源越來越多,數據量越來越大。
除了傳統(tǒng)具有數據積累習慣的行業(yè),比如電信業(yè)、銀行業(yè),當下數據量的激增更多是基于電子商務的興起,而目前對數據挖掘和分析需求更多的也是電子商務公司。
這種直接面對客戶端的數據挖掘和分析,是企業(yè)最直接用到的。通過對既往消費行為的分析,從而劃分客戶群體,做精準營銷。他們的數據依據是用戶以往行為記錄,也可以說是結構型數據。比如某人消費了多少次,每次多少錢。那位國內較早從事數據挖掘的工程師目前就在為淘寶上的幾位大賣家提供第三方的數據挖掘服務。賣家在擁有用戶行為分析的數據前提下,可以更加精確地指定品牌推廣計劃。
數據源的擴容則是偏向于社交網絡和未來的物聯網應用,用戶提供非結構型數據的入口會越來越多。
為了與社會化計算相區(qū)別,我們可以將其這種直接面對客戶端的結構型數據挖掘稱為傳統(tǒng)的數據挖掘。而事實上,傳統(tǒng)數據挖掘和社會化計算是一個殊途同歸的過程。最后都要回歸到聚類問題,分類問題,描述性問題,關聯問題,序列問題,異常性問題這六大主流問題之中,雖然在過程中的算法各有不同。
大數據的目的
大數據解決的是心物間隔的問題。
這個結論正是由上述的基于客戶的傳統(tǒng)數據挖掘和社會化計算得出。傳統(tǒng)的數據挖掘方法是以確定性數據為主,假設了數字可以準確地表達人的需求。比如連續(xù)買了一年這個牌子的產品,就會假設這個用戶是該品牌的忠實消費者。在哲學上,這是一種物化的體現。
社會化計算則充分利用了社交圈子中的關系強弱來預測用戶的需求,這是更多地利用了表面的相關性,比如從我對好友說喜歡寶馬車來推測我可能喜歡某個牌子的手表。這就是邁爾-舍恩伯格說的相關性。
以Facebook為代表的社交網絡所形成的數據更多指向用戶的內心表達,在哲學上就是“心”的體現。之所以說,后現代經濟較之現代經濟具有了“濕”的特征,正是因為后現代經濟中多了很多“心”的要素。大數據的哲學意義正在于此。從這個角度看阿里巴巴入股新浪微博,可以看做是在打通結構性數據和非結構性數據之間的通路。
Google代表的算法和Facebooke的算法到底有什么不同,哪一個更能代表未來?Google的算法是基于關聯性,比如它的廣告推薦系統(tǒng),就是利用用戶的使用痕跡進行精準推薦。Facebook的算法則是基于關系圖譜,當然最近Facebook認識到了關系的脆弱性,它又開始打造興趣圖譜。這兩種算法的應用場景不同,很難說到底哪個更具備未來性。
定義大數據
從廣義來說,大數據是一種基于數據量越來越大、信息源越來越多而實現管理智能的思維形態(tài)。從狹義來說,大數據就是一種特殊的IT平臺。按照傳統(tǒng)的IT架構,數據處理能力是有上限的。Google在2003年和2004年公布了關于GFS、MapReduce和BigTable的三篇技術論文,這也成為后來云計算發(fā)展的重要基石。隨后,著名的Hadroop基于這三篇論文誕生,其創(chuàng)始人Doug Cutting帶著這項技術轉投Yahoo!,并將其打造成了一個易于開發(fā)和運行處理大規(guī)模數據的軟件平臺。
這種基于模塊化搭建起來的開源IT架構,使得數據量的處理能力無限上漲。這是大數據得以實現的硬前提。
在思維層面上,大數據在三個方面具有顛覆性的意義:
可視化思維:大數據的一個重要功能就是把抽象問題直觀化,也就是可視化。哲學在這里是否要發(fā)生一個質變,還不得而知。如果,Google或者百度的神經網絡算法成功的話,也許哲學就不復存在了。
數據化思維:這也是中國人思維里最缺少的東西,更是中國企業(yè)在大數據時代伊始階段四處抓瞎的原因。
心物合一:這是最高級的問題。主體和客體哪個更真實的爭論也許可以到此為止,大數據可以利用社會化計算和行為數據分析,得出一個精準的結論。
不過,對于企業(yè)管理者而言,看待大數據時應該避免高估數據挖掘和低估數據挖掘,只要把它作為正常企業(yè)業(yè)務流程中的一個重要環(huán)節(jié)即可。
在使用大數據時可以嘗試如下思路:
先判斷數據能不能在某個環(huán)節(jié)產生價值;規(guī)劃和選擇大數據方案;大處著眼,小處著手。切忌在伊始階段就上馬大系統(tǒng),大格局。
(來源:IT經理世界)
CDA數據分析師考試相關入口一覽(建議收藏):
? 想報名CDA認證考試,點擊>>>
“CDA報名”
了解CDA考試詳情;
? 想學習CDA考試教材,點擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點擊>>> “CDA含金量” 了解CDA考試詳情;