
全新的大數(shù)據(jù)計(jì)算時(shí)代來(lái)臨并不意味著人們不再需要直覺(jué)和創(chuàng)意!
美國(guó)總統(tǒng)奧巴馬在 2012 年競(jìng)選中的成功很大程度上要?dú)w功于對(duì)量化分析的運(yùn)用。例如,他的團(tuán)隊(duì)可以分析出哪些人在收到競(jìng)選宣傳單張、電話或家訪后更有可能去投票,從而改變那些關(guān)鍵 的“搖擺州”的局面。沃爾瑪通過(guò)數(shù)據(jù)分析發(fā)現(xiàn),在颶風(fēng)襲擊某地之前,不但當(dāng)?shù)貙?duì)手電筒的需求會(huì)上升,某種果塔餅干的銷(xiāo)量也會(huì)提升。這陣量化風(fēng)還吹到了體育 界──暢銷(xiāo)書(shū)《Moneyball》把量化分析的概念普及給了民眾。但這些新的量化技巧到底是怎么回事?企業(yè)應(yīng)該如何運(yùn)用它們?
最近的三本書(shū)有助于管理層找到這些問(wèn)題的答案:《大數(shù)據(jù):改變我們生活、工作與思考的革命》(Big Data: A Revolution That
Will Transform How We Live, Work, and
Think)的作者維克多·梅耶-勛伯格和肯尼斯·庫(kù)基耶分別是牛津大學(xué)互聯(lián)網(wǎng)管治教授和《經(jīng)濟(jì)學(xué)人》的數(shù)據(jù)編輯;《預(yù)測(cè)型分析》(Predictive
Analytics: The Power to Predict Who Will Click, Buy, Lie, or
Die)的作者艾力·西格爾是 Predictive Analytics World
創(chuàng)始人及哥倫比亞大學(xué)前任助教;《跟上量化分析師的腳步》(Keeping Up with the Quants: Your Guide to
Understanding and Using Analytics)則由巴布森學(xué)院信息技術(shù)與管理教授托馬斯·H·達(dá)文波特與韓國(guó)國(guó)防大學(xué)的
Jinho Kim
合著。前兩本書(shū)著重講了大數(shù)據(jù)與量化分析的威力,第三本書(shū)則指導(dǎo)企業(yè)如何利用這些技術(shù)。三本書(shū)既包含介紹也包含建議,加在一起,它們可以成為想理解這個(gè)復(fù)
雜數(shù)據(jù)時(shí)代的管理層的入門(mén)讀本。
根據(jù)艾力·西格爾的估計(jì),人類(lèi)如今每天都會(huì)增加 2.5 萬(wàn)億字節(jié)的數(shù)據(jù)。文字成了數(shù)據(jù),機(jī)械的物理狀態(tài)成了數(shù)據(jù),我們所處的地理位置成了數(shù)據(jù),甚至人與人之間的互動(dòng)也成了數(shù)據(jù)。“很 多時(shí)候,數(shù)據(jù)的收集是被動(dòng)的。你不但不需要做什么,甚至都不知道自己的數(shù)據(jù)被記錄了。另外,由于存儲(chǔ)成本大幅降低,我們沒(méi)有什么理由要?jiǎng)h除任何數(shù)據(jù)了,” 維克多·梅耶-勛伯格和肯尼斯·庫(kù)基耶寫(xiě)到。兩位作者用“數(shù)據(jù)化”一詞來(lái)描述這種新現(xiàn)象。的確,數(shù)據(jù)淹沒(méi)了我們,不過(guò)這究竟意味著什么?
當(dāng)然,擅長(zhǎng)有選擇地進(jìn)行數(shù)據(jù)分析的公司已經(jīng)從數(shù)據(jù)中找出了各種有價(jià)值的關(guān)聯(lián)。有些結(jié)論并不令人意外。例如西格爾發(fā)現(xiàn)那些會(huì)購(gòu)買(mǎi)小絨墊墊在椅子腿下方 以保護(hù)地板的人的信用記錄往往較好。還有一些結(jié)果則很出人意料。某些辦公室里,吸煙者得腕管綜合癥的幾率比不吸煙的人更低(或許是因?yàn)槲鼰熥屗麄冃菹⒌酶? 頻繁)。素食者誤機(jī)的比率也比較?。ɑ蛟S因?yàn)樗麄兲崆邦A(yù)定了特餐,所以不想錯(cuò)過(guò)這班飛機(jī))。
不過(guò),管理者要獲得這樣的信息,就必須從過(guò)去的“小數(shù)據(jù)”心態(tài)中徹底擺脫出來(lái)。梅耶-勛伯格和庫(kù)基的書(shū)非常引人入勝,信息量也很足。他們提出了三個(gè)要點(diǎn):
1.企業(yè)應(yīng)該用全部的數(shù)據(jù),而不僅僅是某一部分。在過(guò)去,企業(yè)沒(méi)有經(jīng)濟(jì)能力捕捉、存儲(chǔ)與分析關(guān)于其各類(lèi)業(yè)務(wù)的全部數(shù)據(jù),因此只能用其中的一部分。但如今像亞馬遜這樣的公司已經(jīng)完全可以把每一個(gè)顧客的交易數(shù)據(jù)都捕捉和存儲(chǔ)下來(lái)。
2.接受混亂。不準(zhǔn)確的數(shù)據(jù)的危害比以前要小了,因?yàn)榫薮蟮臄?shù)據(jù)量可以彌補(bǔ)單一數(shù)據(jù)的不足。用作者們的話說(shuō):“更好不如更多?!?/span>
3.擁抱關(guān)聯(lián)。對(duì)于很多目的而 言,有關(guān)聯(lián)就足夠了,人們不需要知道因果關(guān)系。梅耶-勛伯格和庫(kù)基提到,某個(gè)關(guān)于二手車(chē)的分析發(fā)現(xiàn)橙色汽車(chē)發(fā)生故障的幾率比其它顏色的汽車(chē)低一半。就算我 們不知道這背后的原因,橙色和故障的關(guān)聯(lián)也是有價(jià)值的信息。(或許橙色車(chē)的車(chē)主更熱愛(ài)汽車(chē),因此更愛(ài)護(hù)它?)
大數(shù)據(jù)的另一個(gè)要點(diǎn)在于,很多對(duì)數(shù)據(jù)的應(yīng)用和收集數(shù)據(jù)時(shí)的原始目的完全不同。距離來(lái)說(shuō),手機(jī)公司收集地理位置信息是為了有效地轉(zhuǎn)接電話,但這些數(shù)據(jù) 也可以用來(lái)了解人們周末晚上去哪玩──這一信息對(duì)于預(yù)測(cè)房地產(chǎn)價(jià)格可能會(huì)有幫助。確實(shí),梅耶-勛伯格和庫(kù)基承認(rèn)“數(shù)據(jù)的許多價(jià)值源自其次要用途和期權(quán)價(jià) 值,而非主要用途。”事實(shí)上,兩位作者預(yù)測(cè),“每組數(shù)據(jù)集都很可能包含內(nèi)在的隱藏價(jià)值,現(xiàn)在人們正在搶著發(fā)現(xiàn)和捕捉它們?!? 雖然如此,我們也要指出很多潛在的數(shù)據(jù)應(yīng)用都游走在倫理、道德甚至法律邊緣。例如一個(gè)人的社交網(wǎng)絡(luò)可以被用來(lái)判斷他的信用記錄。假若他的朋友中多有信用記 錄不佳者,那么根據(jù)“近墨者黑” 原理,他或她是不是也更有可能拖款?
西格爾的《預(yù)測(cè)型分析》主要講的是如何將一個(gè)人做某件事──無(wú)論是拖款、升級(jí)有線電視套餐還是跳槽──的可能性量化。作者描述了如何通過(guò)量化技巧在 數(shù)據(jù)中尋找有價(jià)值的規(guī)律,從而幫助企業(yè)預(yù)估顧客、員工等人的行為。根據(jù)書(shū)中的信息,聯(lián)邦快遞能以 65% 到 90% 的準(zhǔn)確率預(yù)測(cè)哪些用戶更容易轉(zhuǎn)用別家快遞服務(wù)。美國(guó)公民銀行(Citizen Bank)可以通過(guò)更加復(fù)雜的量化分析手法將支票詐騙帶來(lái)的損失減少 20%。另外,惠普一直在依靠預(yù)測(cè)型分析來(lái)預(yù)判哪些員工更有可能離職,從而給經(jīng)理們留出充分的時(shí)間挽留員工,或是為其離職做好準(zhǔn)備。(有趣的是,惠普的某 個(gè)部門(mén)里,獲得升職的員工若是薪水沒(méi)有明顯增加,反而更加容易離職。)
當(dāng)然,每人的情況不同,出現(xiàn)“黑天鵝”事件的幾率也必須考慮進(jìn)去。但整體而言,人類(lèi)的確是習(xí)慣性動(dòng)物,這種慣性讓企業(yè)得以預(yù)測(cè)某些行為發(fā)生的可能 性。此外,西格爾對(duì)“預(yù)報(bào)”和“預(yù)測(cè)”做了明確區(qū)分:“預(yù)報(bào)講的是下個(gè)月在內(nèi)布拉斯加州總共會(huì)賣(mài)出多少個(gè)甜筒,預(yù)測(cè)則會(huì)告訴你哪些內(nèi)布拉斯加人最有可能買(mǎi) 甜筒?!?/span>
《預(yù)測(cè)型分析》的某些段落有點(diǎn)冗長(zhǎng)(作者花了很長(zhǎng)的一章專(zhuān)門(mén)講 IBM 的華生電腦如何在美國(guó)的益智搶答節(jié)目 Jeopardy! 上獲勝),但它仍然包含了足夠多簡(jiǎn)明有力的見(jiàn)解,翻一翻至少是有益的。書(shū)中提到了所謂的“預(yù)測(cè)效應(yīng)”。具體而言,預(yù)測(cè)效應(yīng)是指哪怕預(yù)測(cè)的準(zhǔn)確度只有微小提 升,都有可能極大節(jié)省開(kāi)支。例如,西格爾說(shuō)有家保險(xiǎn)公司通過(guò)預(yù)測(cè)性分析將賠付率(賠款支出除以保費(fèi)收入)減少了僅 0.5%,結(jié)果一年就省下了 5000 萬(wàn)美元。
知道預(yù)測(cè)性分析能幫公司省 5000 萬(wàn)美元是一回事,知道如何利用這種分析工具是另一回事。的確,管理者必須超越對(duì)著大數(shù)據(jù)和量化技巧驚嘆的蜜月期,了解企業(yè)如何能夠最好地從這個(gè)新的復(fù)雜計(jì) 算年代獲益。《跟上量化分析師的腳步》一書(shū)就能提供很好的幫助。如書(shū)名所暗示,本書(shū)是給并非分析專(zhuān)家、但漸漸需要理解這一類(lèi)專(zhuān)家的管理者(包括企業(yè)內(nèi)部與 外部的)看的。
在本書(shū)中,作者達(dá)文波特與 Kim 介紹了量化分析師的思考方式。整個(gè)框架包括三大步:定義問(wèn)題、解決問(wèn)題、溝通結(jié)果。
1.定義問(wèn)題。這一步看上去或許簡(jiǎn)單直接,其實(shí)不然。舉例來(lái)說(shuō),若企業(yè)想要了解郵件直銷(xiāo)的成功率,就會(huì)問(wèn)“多少人收到郵件后會(huì)買(mǎi)我們的產(chǎn)品?”但其實(shí)應(yīng)該問(wèn)的是“有多少原來(lái)不會(huì)買(mǎi)我們產(chǎn)品的人,收到郵件后會(huì)買(mǎi)?”(即在本例中因果關(guān)系很重要,企業(yè)想知道的是郵件的效果如何。)
在定義問(wèn)題時(shí),管理者必須讓所有利益相關(guān)者參與進(jìn)來(lái)。這不僅僅是為了了解他們的觀點(diǎn),也是為了搞清楚在分析結(jié)束后他們會(huì)不會(huì)認(rèn)同其結(jié)果。這里的一個(gè)關(guān)鍵問(wèn)題是:這次分析會(huì)帶來(lái)什么樣的行動(dòng)?達(dá) 文波特和 Kim 講述了一家連鎖餐廳的故事。這家餐廳想研究自己的菜單上的每一道食品的盈利能力。當(dāng)管理者們被問(wèn)到打算拿這次分析的結(jié)果來(lái)干什么時(shí),一位管理者說(shuō)打算取消 那些不賺錢(qián)的菜,但另外一位管理者則反駁說(shuō),餐廳在過(guò)去二十年里從來(lái)沒(méi)有取消過(guò)一道菜。經(jīng)過(guò)進(jìn)一步討論后,管理者們轉(zhuǎn)而決定研究菜品定價(jià),而非盈利能力。
2.解決問(wèn)題。這一步由建模、數(shù)據(jù)收集和數(shù)據(jù)分析構(gòu)成。作者強(qiáng)調(diào)了新信息源的價(jià)值──更多、更好的數(shù)據(jù)往往比更 好的用來(lái)分析那些數(shù)據(jù)的算法更加重要。舉例來(lái)說(shuō),保險(xiǎn)公司 Progressive 利用 FICO 公司提供的數(shù)據(jù)分析評(píng)估了某個(gè)特定顧客未來(lái)可能發(fā)生車(chē)禍的幾率,從而超越了競(jìng)爭(zhēng)對(duì)手。另外,在 Hadoop 和 MapReduce 等工具的幫助下,企業(yè)不僅可以考慮使用結(jié)構(gòu)化的數(shù)據(jù)(例如顧客的年齡與收入),也可以開(kāi)始用非結(jié)構(gòu)化的信息(例如文字與圖片)。
3.溝通結(jié)果,并采取行動(dòng)。許多量化分析師都犯了一個(gè)錯(cuò)誤:假定他們可以單純“靠結(jié)果說(shuō)話”。這是不對(duì)的?!鞍? 結(jié)果呈現(xiàn)得越清晰,量化分析越能導(dǎo)向決策與行動(dòng)──畢竟進(jìn)行量化分析最初的目的就是這個(gè),”達(dá)文波特和 Kim 寫(xiě)到。有時(shí)光是清晰還不夠,結(jié)果還需要以引人入勝、友好的形式展現(xiàn)。舉例來(lái)說(shuō),德勤咨詢?yōu)?Delta 航空公司開(kāi)發(fā)了一個(gè) iPad 軟件,讓管理者能夠迅速查詢航班的運(yùn)營(yíng)情況。軟件用不同的顏色表示各機(jī)場(chǎng)的狀態(tài),觸摸地圖上的某個(gè)機(jī)場(chǎng)則能夠調(diào)出有關(guān)當(dāng)?shù)氐念~外信息。管理者若想深挖,還 可以進(jìn)一步取得更細(xì)致的信息:?jiǎn)T工、客服水平、相關(guān)問(wèn)題。
《跟上量化分析師的腳步》中提到的一個(gè)重要觀點(diǎn)是,全新的計(jì)算時(shí)代來(lái)臨并不意味著人們不再需要直覺(jué)和創(chuàng)意。這點(diǎn)對(duì)于那重要的第一步──定義問(wèn)題──尤其適用。“解決問(wèn)題和決策的過(guò)程有一半是在于用富于創(chuàng)造性的方式定義問(wèn)題 / 決策,從而讓人們可以高效地解決它,”達(dá)文波特和 Kim 說(shuō)。例如一位聰明的研究員盧俊翔(音)找到了一種方式來(lái)預(yù)測(cè)顧客對(duì)于電信業(yè)的終身價(jià)值。他很有創(chuàng)意地將問(wèn)題重新定義為“生存分析”。這是一種生物統(tǒng)計(jì)技巧,用來(lái)決定某個(gè)生物群體中有多少能夠存活超過(guò)一定的時(shí)間。
當(dāng)然,大數(shù)據(jù)和預(yù)測(cè)性分析為我們帶來(lái)了一些難題。隱私就是其中的一個(gè)熱點(diǎn)話題。2012 年,美國(guó)的 Target 超市采用量化分析手法預(yù)測(cè)哪些顧客已經(jīng)懷孕,從而引起了一場(chǎng)媒體風(fēng)暴。(西格爾在《預(yù)測(cè)型分析》一書(shū)中討論了這一事件。)此外,跟很多新工具一樣,技術(shù)發(fā) 展的速度往往超越了法律與政府管治。根據(jù)梅耶-勛伯格和庫(kù)基的說(shuō)法,“我們的社會(huì)已經(jīng)發(fā)展出一套用來(lái)保護(hù)個(gè)人信息的規(guī)則。但在大數(shù)據(jù)的時(shí)代,這些法律條款 基本上只是一條無(wú)用的馬奇諾防線?!?/span>
另一個(gè)棘手的問(wèn)題是如何為數(shù)據(jù)定價(jià)。在過(guò)去,企業(yè)花了很多心力去評(píng)估其品牌、專(zhuān)利、商業(yè)秘密以及其它知識(shí)財(cái)產(chǎn)的價(jià)值。現(xiàn)在我們也應(yīng)該將數(shù)據(jù)納入其中。但
是,企業(yè)在 Facebook
上收獲的那些“贊”究竟值多少錢(qián)?谷歌的搜索信息全部加起來(lái)值多少錢(qián)?此外,消費(fèi)者是否有權(quán)共享這些價(jià)值?尤其是當(dāng)信息被收集起來(lái),以和原本目的不同的方
式盈利的時(shí)候?
先拋開(kāi)這些難題,有一件事情是肯定的:大數(shù)據(jù)和量化分析的時(shí)代剛剛開(kāi)始。“將世界視為數(shù)據(jù),視為數(shù)據(jù)的海洋,可以不斷更深、更廣地去探索它,這種思 維方式讓我們對(duì)現(xiàn)實(shí)有了全新的視角,”梅耶-勛伯格和庫(kù)基寫(xiě)到。那些正在嘗試把握這一新現(xiàn)實(shí)的公司很可能會(huì)在競(jìng)爭(zhēng)中勝出──這,很可能就是預(yù)測(cè)型分析為我 們畫(huà)出的未來(lái)商業(yè)圖景。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱(chēng) BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03