
大數(shù)據(jù)到底能做什么
大數(shù)據(jù)太火了,被廣泛應用到各行各業(yè),而近階段又有著明顯的過熱跡象。大數(shù)據(jù)到底是一個營銷詞匯,還是一個方法論?本文作者老李正是一家大數(shù)據(jù)服務提供商的資深員工,他所做的項目就是針對不同行業(yè)進行大數(shù)據(jù)分析。他認為,關于大數(shù)據(jù)你首先必須有一個基本認識,那就是“大量的數(shù)據(jù)并非一定具有價值”。另外,數(shù)據(jù)統(tǒng)計并不等同于大數(shù)據(jù),數(shù)據(jù)統(tǒng)計和大數(shù)據(jù)的區(qū)別就在于人工智能。長文慎入:
近兩年來,“大數(shù)據(jù)”被廣泛應用到各行各業(yè),而近階段又有著明顯的過熱跡象。從央視的春運遷徙圖到姚晨看到微博數(shù)據(jù)的驚呼;從兩會期間的兩會大數(shù)據(jù),到《星星》都叫獸的高低領毛衣,“大數(shù)據(jù)”被人們推到了一個前所未有的高度,同時也從一個高精尖的科研方向變成了一個世人皆知的營銷詞匯。
我既沒有資格代表學術界,更沒有資格來判定誰是誰非。我只能就自己的工作經(jīng)歷,來談一下我眼中的大數(shù)據(jù):
什么是大數(shù)據(jù)?
百度百科對大數(shù)據(jù)的定義是這樣的:大數(shù)據(jù)(big data)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。
Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
個人認為Gartner的定義更為貼切。“新處理模式”是一個很關鍵的詞匯,這也是我所理解的“大數(shù)據(jù)”區(qū)別于傳統(tǒng)統(tǒng)計分析等最關鍵的特征之一。這個所謂的“新處理模式”有兩層含義:
1、由于海量的數(shù)據(jù),需要更高效的存儲和處理技術,Hadoop成為了大數(shù)據(jù)時代的標志;
2、如果你認為大數(shù)據(jù)就等于Hadoop,那就大錯特錯了。Hadoop只是大數(shù)據(jù)時代的一個必要條件,大數(shù)據(jù)還有一個明顯的標志是數(shù)據(jù)挖掘和人工智能的緊密結合。這也是我理解的“大數(shù)據(jù)”與現(xiàn)在很多所謂“大數(shù)據(jù)”項目最明顯的區(qū)別之一。我會在后面的案例中給大家展開。
除了上面的“新處理模式”上的區(qū)別,個人認為還有一個最主要的區(qū)別是:數(shù)據(jù)統(tǒng)計分析是基于已有數(shù)據(jù)的縱向歸類,而大數(shù)據(jù)是基于對已有海量數(shù)據(jù)的處理,對還未產(chǎn)生的數(shù)據(jù)作出預測和推薦。數(shù)據(jù)統(tǒng)計是已經(jīng)發(fā)生的事情,而大數(shù)據(jù)往往被用于還沒有發(fā)生的事情預測或者推薦中。
預測和推薦,是如何實現(xiàn)的?
目前主要的推薦算法大致可以分為兩類。一個是基于行為,一個是基于內(nèi)容。當然,針對不同的領域,不同的預測和推薦的對象,又會有十余種算法。這就不是本文展開的內(nèi)容了。
基于行為的分析,顧名思義,即對用戶在互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)留下的“痕跡”,即瀏覽、點擊、收藏、購買、二次購買的分析,得出未來會選擇購買的預測和推薦結果?;谛袨榈姆治?,屬于群體智慧,綜合利用群體用戶的行為偏好。用戶之間會相互影響,更加符合現(xiàn)實世界中的用戶行為。
圖1、電商基于行為的推薦漏斗算法
基于內(nèi)容的分析, 包括對文字、圖片、音頻、視頻等信息的分析,得出預測和推薦的結論。內(nèi)容的“基因”和用戶的偏好相匹配,最有代表的是潘多拉的音樂推薦項目,其將曲庫中所有歌曲都由400多位專家打上標簽,然后建立個人與音樂的聯(lián)系,從而完成音樂的推薦。內(nèi)容的分析只針對個人,與用戶之間關系無關。
大數(shù)據(jù)到底能做什么
現(xiàn)在談這個問題可能會讓大家笑話,似乎所有人都知道大數(shù)據(jù)能干這個,能干那個,最后連我們自己都覺得可笑。大數(shù)據(jù)已經(jīng)都不是被“妖魔化”了,是“娛樂化”。大數(shù)據(jù)似乎是個離我們忽遠又忽近的事物了,變得不真實起來。
好吧,我還是結合從業(yè)經(jīng)歷來說說大數(shù)據(jù)“解決過什么問題”吧:簡單地來說,大數(shù)據(jù)可以幫我們解決決策和選擇的問題。
天氣預報就是一個最古老而且眾所周知的預測。你可以根據(jù)預報來決定明天穿什么衣服,是否要帶雨傘,等等;
近兩年來,大數(shù)據(jù)被應用到影視制片行業(yè),基于對觀眾偏好的分析,去預測、設計觀眾喜歡的劇情,找觀眾喜愛的演員出演相關的角色,甚至可以去預測票房。這些所有的預測都是基于數(shù)據(jù)的基礎上,經(jīng)過一定的模型處理,得到接近真實的結論。從某種程度上給決策者決策的依據(jù),比如《紙牌屋》和《星星》。
大數(shù)據(jù)還有一個重要的作用,就是解決人們的“選擇”問題。別笑,無論你的年齡、性別、教育背景,人們目前都面臨著前所未有的選擇問題。講的學術一些,這是由于“長尾效應”導致的問題;講得通俗一些,就是由于日益增多的可選擇的對象和我們自身的處理能力之間的矛盾。
科技的進步讓人變得更懶,也就是我們自身的處理能力降低,無論是主觀的還是客觀的。而可被選擇的對象卻在日益增多。從紛繁復雜的商品(電商),到海量曲庫中的樂曲;從婚戀網(wǎng)站的男女朋友,到交通管理的信號燈。
基于人工智能下的大數(shù)據(jù),就是可以使人們“變懶”的一個手段?;谀愕臍v史行為,判斷出你可能的喜好,乃至需求,將最佳結果,推薦給你。這就是大數(shù)據(jù),她是你的貼心管家,或者說是最懂你的朋友。
一個最經(jīng)典的案例是沃爾瑪曾經(jīng)做過的“啤酒”和“尿布”調(diào)研:沃爾瑪在研究中發(fā)現(xiàn),一類顧客經(jīng)常在購買尿布的同時也購買啤酒。尿布跟啤酒自然是毫無關聯(lián)的兩個品類的商品,從個人經(jīng)驗上來看,根本想不到二者的聯(lián)系。后來發(fā)現(xiàn),這是一類社會現(xiàn)象所導致的。美國有很多年輕夫婦,尿布用完后,女主人在家?guī)Ш⒆?,而男主人就去超市買尿布。買完尿布之后,男主人通常會順帶著買些啤酒。
上述例子說明,數(shù)據(jù)經(jīng)??梢宰屇惆l(fā)現(xiàn)看似不合理不合邏輯但卻存在,并且經(jīng)常發(fā)生的現(xiàn)象。
再舉個例子,北京的交通擁堵是地球人都知道的事情。尤其是早晚高峰,這已經(jīng)不需要預測了。但如果根據(jù)歷史交通數(shù)據(jù),再經(jīng)過數(shù)學模型,計算出一個全北京最佳的交通信號燈管理系統(tǒng),這就屬于大數(shù)據(jù)的范疇了。
圖2、出租車每天的分布圖
這也是我眼中大數(shù)據(jù)主要與普通的數(shù)據(jù)統(tǒng)計分析最大的不同:數(shù)據(jù)統(tǒng)計可以幫助你發(fā)現(xiàn)疾病,但大數(shù)據(jù)可以不但幫助你發(fā)現(xiàn),且?guī)椭阒委熂膊 ?/span>
大數(shù)據(jù)絕不是“噱頭“,我們在幫助某運營商閱讀基地的閱讀推薦項目中,各項指標均得到大幅提升。而這個提升不是百分之幾十,而是數(shù)倍的提升?。ㄓ脩羧司髁刻嵘?倍,沉默用戶激活能力提升了6.5倍)這才是大數(shù)據(jù)的魅力。
大數(shù)據(jù)不是萬能的
大數(shù)據(jù)顯然不是萬能的。正因為如此,她才真實。大數(shù)據(jù)在有些領域由于種種原因,所帶來的價值并不如預期的那么高。導致這種現(xiàn)象最主要的問題有兩個,一個是由于數(shù)據(jù)本身的質(zhì)量或者數(shù)量不夠;另一個是算法不合適。
不要以為是海量數(shù)據(jù)就一定會有價值,在過往的工作中,我們經(jīng)常發(fā)現(xiàn)來自甲方的數(shù)據(jù)源有80-90%的數(shù)據(jù)都是無用的。只有10%-20%的數(shù)據(jù)才會產(chǎn)生一定的價值。這就又讓我想到Marry Meeker打的那個比喻,“大數(shù)據(jù)的工作就像在一堆稻草中尋找一根針”。
何況,大多數(shù)領域本身業(yè)務屬于早期,所擁有的數(shù)據(jù)非常貧乏。冷啟動、稀疏性是大數(shù)據(jù)在諸多領域面臨的挑戰(zhàn)。
另一方面,對于不同領域,不同項目,沒有放之四海而皆準的算法,必須要根據(jù)具體問題具體分析解決。在實際的工作中發(fā)現(xiàn),不只是不同的領域(如文章推薦與商品推薦),甚至同一領域的不同單元(同屬電商但不同類電商,如母嬰類和服裝類或者奢侈品類)也有所不同。
數(shù)據(jù)的交叉利用
上面提到的兩個大數(shù)據(jù)在實際應用中面臨的最大問題,即冷啟動時數(shù)據(jù)的匱乏和業(yè)務早期數(shù)據(jù)的稀疏性問題,并不是無藥可救。業(yè)界一直討論的數(shù)據(jù)打通,就是解決這兩問題的出路。
對于一些新興領域,缺乏數(shù)據(jù)是必然的,而另一方面,正由于缺乏數(shù)據(jù)的支持,所以才更需要有強大決策支持的系統(tǒng)對其業(yè)務做指導和支撐,以實現(xiàn)少走彎路,利益最大化的目的。
移動互聯(lián)網(wǎng)領域的項目,尤為代表。雖然在過去的兩三年里,移動互聯(lián)網(wǎng)得到了高速的發(fā)展,但畢竟在各個方面的積累,都無法與互聯(lián)網(wǎng)相比。尤其在人們形成穩(wěn)定的使用習慣之前,數(shù)據(jù)還不具備更多的價值和意義。
但如果能把互聯(lián)網(wǎng)的數(shù)據(jù)與移動互聯(lián)網(wǎng)數(shù)據(jù)打通,那么我們就掌握了這個人的喜好等多方面信息,從而為移動互聯(lián)網(wǎng)業(yè)務做出更有效的指導和幫助。
圖3、互聯(lián)網(wǎng)與移動互聯(lián)網(wǎng)數(shù)據(jù)的打通
當然,數(shù)據(jù)的打通絕不僅限于互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)。每個數(shù)據(jù)源的數(shù)據(jù)往往刻畫了一個人的不同方面。正如巴拉巴西教授在《爆發(fā)》一書中描繪的那樣,如果數(shù)據(jù)充分,人類93%的行為是可以預知的,是有規(guī)律的。
也只有將這些不同來源的數(shù)據(jù)重新組織,才能挖掘出更有意義的信息。
如今,行業(yè)內(nèi)不少人打著“數(shù)據(jù)統(tǒng)計和分析”的旗號來做大數(shù)據(jù),讓很多外行人陷入了誤區(qū):數(shù)據(jù)統(tǒng)計并非等于大數(shù)據(jù)。無論數(shù)據(jù)統(tǒng)計也好,大數(shù)據(jù)也罷,其實都是為了使我們的工作變得更為有效,讓決策更為理性而準確。重視數(shù)據(jù),本身就是一個企業(yè)成熟的標志。
移動互聯(lián)網(wǎng)的迅速崛起,讓數(shù)據(jù)變得更為多樣、豐富。它的移動性,它的碎片化,它的私密性和隨時性都剛好彌補了用戶離開桌面電腦之后的數(shù)據(jù),從而與原有的互聯(lián)網(wǎng)數(shù)據(jù)一起很好滴勾勒出一個網(wǎng)民一天的生活,日常生活的數(shù)據(jù)化。
隨著數(shù)據(jù)的進一步豐富和完善,隨著不同渠道數(shù)據(jù)的打通和交叉利用,有關大數(shù)據(jù)的想象一定會更加廣闊。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03