
全新的大數(shù)據(jù)計算時代來臨并不意味著人們不再需要直覺和創(chuàng)意!
美國總統(tǒng)奧巴馬在 2012 年競選中的成功很大程度上要歸功于對量化分析的運用。例如,他的團隊可以分析出哪些人在收到競選宣傳單張、電話或家訪后更有可能去投票,從而改變那些關(guān)鍵 的“搖擺州”的局面。沃爾瑪通過數(shù)據(jù)分析發(fā)現(xiàn),在颶風襲擊某地之前,不但當?shù)貙κ蛛娡驳男枨髸仙?,某種果塔餅干的銷量也會提升。這陣量化風還吹到了體育 界──暢銷書《Moneyball》把量化分析的概念普及給了民眾。但這些新的量化技巧到底是怎么回事?企業(yè)應(yīng)該如何運用它們?
最近的三本書有助于管理層找到這些問題的答案:《大數(shù)據(jù):改變我們生活、工作與思考的革命》(Big Data: A Revolution That
Will Transform How We Live, Work, and
Think)的作者維克多·梅耶-勛伯格和肯尼斯·庫基耶分別是牛津大學互聯(lián)網(wǎng)管治教授和《經(jīng)濟學人》的數(shù)據(jù)編輯;《預測型分析》(Predictive
Analytics: The Power to Predict Who Will Click, Buy, Lie, or
Die)的作者艾力·西格爾是 Predictive Analytics World
創(chuàng)始人及哥倫比亞大學前任助教;《跟上量化分析師的腳步》(Keeping Up with the Quants: Your Guide to
Understanding and Using Analytics)則由巴布森學院信息技術(shù)與管理教授托馬斯·H·達文波特與韓國國防大學的
Jinho Kim
合著。前兩本書著重講了大數(shù)據(jù)與量化分析的威力,第三本書則指導企業(yè)如何利用這些技術(shù)。三本書既包含介紹也包含建議,加在一起,它們可以成為想理解這個復
雜數(shù)據(jù)時代的管理層的入門讀本。
根據(jù)艾力·西格爾的估計,人類如今每天都會增加 2.5 萬億字節(jié)的數(shù)據(jù)。文字成了數(shù)據(jù),機械的物理狀態(tài)成了數(shù)據(jù),我們所處的地理位置成了數(shù)據(jù),甚至人與人之間的互動也成了數(shù)據(jù)。“很 多時候,數(shù)據(jù)的收集是被動的。你不但不需要做什么,甚至都不知道自己的數(shù)據(jù)被記錄了。另外,由于存儲成本大幅降低,我們沒有什么理由要刪除任何數(shù)據(jù)了,” 維克多·梅耶-勛伯格和肯尼斯·庫基耶寫到。兩位作者用“數(shù)據(jù)化”一詞來描述這種新現(xiàn)象。的確,數(shù)據(jù)淹沒了我們,不過這究竟意味著什么?
當然,擅長有選擇地進行數(shù)據(jù)分析的公司已經(jīng)從數(shù)據(jù)中找出了各種有價值的關(guān)聯(lián)。有些結(jié)論并不令人意外。例如西格爾發(fā)現(xiàn)那些會購買小絨墊墊在椅子腿下方 以保護地板的人的信用記錄往往較好。還有一些結(jié)果則很出人意料。某些辦公室里,吸煙者得腕管綜合癥的幾率比不吸煙的人更低(或許是因為吸煙讓他們休息得更 頻繁)。素食者誤機的比率也比較?。ɑ蛟S因為他們提前預定了特餐,所以不想錯過這班飛機)。
不過,管理者要獲得這樣的信息,就必須從過去的“小數(shù)據(jù)”心態(tài)中徹底擺脫出來。梅耶-勛伯格和庫基的書非常引人入勝,信息量也很足。他們提出了三個要點:
1.企業(yè)應(yīng)該用全部的數(shù)據(jù),而不僅僅是某一部分。在過去,企業(yè)沒有經(jīng)濟能力捕捉、存儲與分析關(guān)于其各類業(yè)務(wù)的全部數(shù)據(jù),因此只能用其中的一部分。但如今像亞馬遜這樣的公司已經(jīng)完全可以把每一個顧客的交易數(shù)據(jù)都捕捉和存儲下來。
2.接受混亂。不準確的數(shù)據(jù)的危害比以前要小了,因為巨大的數(shù)據(jù)量可以彌補單一數(shù)據(jù)的不足。用作者們的話說:“更好不如更多。”
3.擁抱關(guān)聯(lián)。對于很多目的而 言,有關(guān)聯(lián)就足夠了,人們不需要知道因果關(guān)系。梅耶-勛伯格和庫基提到,某個關(guān)于二手車的分析發(fā)現(xiàn)橙色汽車發(fā)生故障的幾率比其它顏色的汽車低一半。就算我 們不知道這背后的原因,橙色和故障的關(guān)聯(lián)也是有價值的信息。(或許橙色車的車主更熱愛汽車,因此更愛護它?)
大數(shù)據(jù)的另一個要點在于,很多對數(shù)據(jù)的應(yīng)用和收集數(shù)據(jù)時的原始目的完全不同。距離來說,手機公司收集地理位置信息是為了有效地轉(zhuǎn)接電話,但這些數(shù)據(jù) 也可以用來了解人們周末晚上去哪玩──這一信息對于預測房地產(chǎn)價格可能會有幫助。確實,梅耶-勛伯格和庫基承認“數(shù)據(jù)的許多價值源自其次要用途和期權(quán)價 值,而非主要用途。”事實上,兩位作者預測,“每組數(shù)據(jù)集都很可能包含內(nèi)在的隱藏價值,現(xiàn)在人們正在搶著發(fā)現(xiàn)和捕捉它們。” 雖然如此,我們也要指出很多潛在的數(shù)據(jù)應(yīng)用都游走在倫理、道德甚至法律邊緣。例如一個人的社交網(wǎng)絡(luò)可以被用來判斷他的信用記錄。假若他的朋友中多有信用記 錄不佳者,那么根據(jù)“近墨者黑” 原理,他或她是不是也更有可能拖款?
西格爾的《預測型分析》主要講的是如何將一個人做某件事──無論是拖款、升級有線電視套餐還是跳槽──的可能性量化。作者描述了如何通過量化技巧在 數(shù)據(jù)中尋找有價值的規(guī)律,從而幫助企業(yè)預估顧客、員工等人的行為。根據(jù)書中的信息,聯(lián)邦快遞能以 65% 到 90% 的準確率預測哪些用戶更容易轉(zhuǎn)用別家快遞服務(wù)。美國公民銀行(Citizen Bank)可以通過更加復雜的量化分析手法將支票詐騙帶來的損失減少 20%。另外,惠普一直在依靠預測型分析來預判哪些員工更有可能離職,從而給經(jīng)理們留出充分的時間挽留員工,或是為其離職做好準備。(有趣的是,惠普的某 個部門里,獲得升職的員工若是薪水沒有明顯增加,反而更加容易離職。)
當然,每人的情況不同,出現(xiàn)“黑天鵝”事件的幾率也必須考慮進去。但整體而言,人類的確是習慣性動物,這種慣性讓企業(yè)得以預測某些行為發(fā)生的可能 性。此外,西格爾對“預報”和“預測”做了明確區(qū)分:“預報講的是下個月在內(nèi)布拉斯加州總共會賣出多少個甜筒,預測則會告訴你哪些內(nèi)布拉斯加人最有可能買 甜筒。”
《預測型分析》的某些段落有點冗長(作者花了很長的一章專門講 IBM 的華生電腦如何在美國的益智搶答節(jié)目 Jeopardy! 上獲勝),但它仍然包含了足夠多簡明有力的見解,翻一翻至少是有益的。書中提到了所謂的“預測效應(yīng)”。具體而言,預測效應(yīng)是指哪怕預測的準確度只有微小提 升,都有可能極大節(jié)省開支。例如,西格爾說有家保險公司通過預測性分析將賠付率(賠款支出除以保費收入)減少了僅 0.5%,結(jié)果一年就省下了 5000 萬美元。
知道預測性分析能幫公司省 5000 萬美元是一回事,知道如何利用這種分析工具是另一回事。的確,管理者必須超越對著大數(shù)據(jù)和量化技巧驚嘆的蜜月期,了解企業(yè)如何能夠最好地從這個新的復雜計 算年代獲益。《跟上量化分析師的腳步》一書就能提供很好的幫助。如書名所暗示,本書是給并非分析專家、但漸漸需要理解這一類專家的管理者(包括企業(yè)內(nèi)部與 外部的)看的。
在本書中,作者達文波特與 Kim 介紹了量化分析師的思考方式。整個框架包括三大步:定義問題、解決問題、溝通結(jié)果。
1.定義問題。這一步看上去或許簡單直接,其實不然。舉例來說,若企業(yè)想要了解郵件直銷的成功率,就會問“多少人收到郵件后會買我們的產(chǎn)品?”但其實應(yīng)該問的是“有多少原來不會買我們產(chǎn)品的人,收到郵件后會買?”(即在本例中因果關(guān)系很重要,企業(yè)想知道的是郵件的效果如何。)
在定義問題時,管理者必須讓所有利益相關(guān)者參與進來。這不僅僅是為了了解他們的觀點,也是為了搞清楚在分析結(jié)束后他們會不會認同其結(jié)果。這里的一個關(guān)鍵問題是:這次分析會帶來什么樣的行動?達 文波特和 Kim 講述了一家連鎖餐廳的故事。這家餐廳想研究自己的菜單上的每一道食品的盈利能力。當管理者們被問到打算拿這次分析的結(jié)果來干什么時,一位管理者說打算取消 那些不賺錢的菜,但另外一位管理者則反駁說,餐廳在過去二十年里從來沒有取消過一道菜。經(jīng)過進一步討論后,管理者們轉(zhuǎn)而決定研究菜品定價,而非盈利能力。
2.解決問題。這一步由建模、數(shù)據(jù)收集和數(shù)據(jù)分析構(gòu)成。作者強調(diào)了新信息源的價值──更多、更好的數(shù)據(jù)往往比更 好的用來分析那些數(shù)據(jù)的算法更加重要。舉例來說,保險公司 Progressive 利用 FICO 公司提供的數(shù)據(jù)分析評估了某個特定顧客未來可能發(fā)生車禍的幾率,從而超越了競爭對手。另外,在 Hadoop 和 MapReduce 等工具的幫助下,企業(yè)不僅可以考慮使用結(jié)構(gòu)化的數(shù)據(jù)(例如顧客的年齡與收入),也可以開始用非結(jié)構(gòu)化的信息(例如文字與圖片)。
3.溝通結(jié)果,并采取行動。許多量化分析師都犯了一個錯誤:假定他們可以單純“靠結(jié)果說話”。這是不對的。“把 結(jié)果呈現(xiàn)得越清晰,量化分析越能導向決策與行動──畢竟進行量化分析最初的目的就是這個,”達文波特和 Kim 寫到。有時光是清晰還不夠,結(jié)果還需要以引人入勝、友好的形式展現(xiàn)。舉例來說,德勤咨詢?yōu)?Delta 航空公司開發(fā)了一個 iPad 軟件,讓管理者能夠迅速查詢航班的運營情況。軟件用不同的顏色表示各機場的狀態(tài),觸摸地圖上的某個機場則能夠調(diào)出有關(guān)當?shù)氐念~外信息。管理者若想深挖,還 可以進一步取得更細致的信息:員工、客服水平、相關(guān)問題。
《跟上量化分析師的腳步》中提到的一個重要觀點是,全新的計算時代來臨并不意味著人們不再需要直覺和創(chuàng)意。這點對于那重要的第一步──定義問題──尤其適用。“解決問題和決策的過程有一半是在于用富于創(chuàng)造性的方式定義問題 / 決策,從而讓人們可以高效地解決它,”達文波特和 Kim 說。例如一位聰明的研究員盧俊翔(音)找到了一種方式來預測顧客對于電信業(yè)的終身價值。他很有創(chuàng)意地將問題重新定義為“生存分析”。這是一種生物統(tǒng)計技巧,用來決定某個生物群體中有多少能夠存活超過一定的時間。
當然,大數(shù)據(jù)和預測性分析為我們帶來了一些難題。隱私就是其中的一個熱點話題。2012 年,美國的 Target 超市采用量化分析手法預測哪些顧客已經(jīng)懷孕,從而引起了一場媒體風暴。(西格爾在《預測型分析》一書中討論了這一事件。)此外,跟很多新工具一樣,技術(shù)發(fā) 展的速度往往超越了法律與政府管治。根據(jù)梅耶-勛伯格和庫基的說法,“我們的社會已經(jīng)發(fā)展出一套用來保護個人信息的規(guī)則。但在大數(shù)據(jù)的時代,這些法律條款 基本上只是一條無用的馬奇諾防線?!?/span>
另一個棘手的問題是如何為數(shù)據(jù)定價。在過去,企業(yè)花了很多心力去評估其品牌、專利、商業(yè)秘密以及其它知識財產(chǎn)的價值?,F(xiàn)在我們也應(yīng)該將數(shù)據(jù)納入其中。但
是,企業(yè)在 Facebook
上收獲的那些“贊”究竟值多少錢?谷歌的搜索信息全部加起來值多少錢?此外,消費者是否有權(quán)共享這些價值?尤其是當信息被收集起來,以和原本目的不同的方
式盈利的時候?
先拋開這些難題,有一件事情是肯定的:大數(shù)據(jù)和量化分析的時代剛剛開始?!皩⑹澜缫暈閿?shù)據(jù),視為數(shù)據(jù)的海洋,可以不斷更深、更廣地去探索它,這種思 維方式讓我們對現(xiàn)實有了全新的視角,”梅耶-勛伯格和庫基寫到。那些正在嘗試把握這一新現(xiàn)實的公司很可能會在競爭中勝出──這,很可能就是預測型分析為我 們畫出的未來商業(yè)圖景。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10