
“大數(shù)據(jù)”還不等于“大智慧”_數(shù)據(jù)分析師
近幾年以來(lái),“大數(shù)據(jù)”已經(jīng)傳得沸沸揚(yáng)揚(yáng)。技術(shù)開(kāi)發(fā)商和媒體記者鋪天蓋地式的宣傳,你怎么可能不知道“大數(shù)據(jù)”?即使不知道也總會(huì)聽(tīng)說(shuō)過(guò)。讓我們來(lái)看看他們是怎么大力宣傳所謂的“大數(shù)據(jù)”:“大數(shù)據(jù)”無(wú)所不知無(wú)所不能;有了“大數(shù)據(jù)”的支持,公司運(yùn)行效率突飛猛進(jìn);“大數(shù)據(jù)”還能幫助你了解數(shù)據(jù),做出最明智的決策,使你的公司時(shí)刻都充滿了競(jìng)爭(zhēng)優(yōu)勢(shì)。
多么具有誘惑力的宣傳!當(dāng)然我們不能百分之百地說(shuō)報(bào)道違背了事實(shí)。只是人們對(duì)于高科技的宣傳總是過(guò)于樂(lè)觀超前。事實(shí)上,很多公司都發(fā)現(xiàn)以目前的條件實(shí)現(xiàn)“大數(shù)據(jù)”困難重重,理想很豐滿,現(xiàn)實(shí)卻很骨感。的確,在數(shù)據(jù)的收集和處理方面,可能具有可觀的優(yōu)勢(shì)。但真正的使用這些數(shù)據(jù)、乃至借助這些制定更優(yōu)化的決策則完全又是另一回事。那么問(wèn)題出在哪里呢?多數(shù)公司表示在“大數(shù)據(jù)”和對(duì)大數(shù)據(jù)的“大理解”之間,缺少了某個(gè)重要的聯(lián)系。如果這個(gè)問(wèn)題得不到解決,那么人們只是空有一堆看似有用的數(shù)據(jù),卻難以從中挖掘出有用的價(jià)值。
正如硅谷的一名資深業(yè)內(nèi)人士最近透露,盡管從近日創(chuàng)業(yè)公司的活動(dòng)和融資情況來(lái)看,大數(shù)據(jù)的數(shù)據(jù)采集和處理似乎受到廣泛關(guān)注,但是現(xiàn)實(shí)和預(yù)期之間的巨大差距依然無(wú)法視而不見(jiàn)。他說(shuō),“大數(shù)據(jù)還沒(méi)有真正轉(zhuǎn)化為大認(rèn)識(shí)、大洞見(jiàn)和大智慧。”以他們的預(yù)測(cè),我們離真正的“大數(shù)據(jù)”時(shí)代還有很長(zhǎng)的一段路要走。
炒作和現(xiàn)實(shí),不可混為一談
我們希望從大數(shù)據(jù)中獲取價(jià)值的方法越簡(jiǎn)單越好,比如導(dǎo)入數(shù)據(jù),運(yùn)行程序,最后得出富有遠(yuǎn)見(jiàn)的結(jié)論。你覺(jué)得這可能嗎?如果智慧那么容易獲得,那人人都可以是喬布斯了。事實(shí)上,從大數(shù)據(jù)中獲得有價(jià)值的信息遠(yuǎn)比“導(dǎo)入、運(yùn)行、輸出三部曲”要復(fù)雜得多。“《數(shù)據(jù)預(yù)測(cè):大數(shù)據(jù)戰(zhàn)略》(Data Divination:Big Data Strategies)”一書(shū)的作者帕姆·貝克(Pam Baker)說(shuō),數(shù)據(jù)直接給出答案的實(shí)例確實(shí)存在,但只存在于特定的情況下,鮮有發(fā)生。我們不能寄希望于例外,我們需要的是普遍規(guī)律。
“也許,有人會(huì)辯解說(shuō),我們可以舉出很多例子,在這些例子中,數(shù)據(jù)往往可以給出非常明確的答案。比如預(yù)測(cè)分析學(xué)可以精確地預(yù)測(cè)出飛機(jī)或供水系統(tǒng)中的某個(gè)零部件的報(bào)廢時(shí)間,還能告訴我們替換零部件的最佳時(shí)間,以便于在舊部件報(bào)廢之前最大化地利用其剩余價(jià)值?!必惪私忉尩?。
“但是,”她馬上又強(qiáng)調(diào),“更多的情況下,我們是沒(méi)有辦法直接獲得想要的答案的。你可以從諸多可能的行為中選擇一個(gè)或者什么都不做,具體情況具體分析,這才是我們所面臨的真實(shí)情況?!?/span>
貝克一語(yǔ)中的。一些基于數(shù)據(jù)的決策的確是這樣。數(shù)據(jù)不是“冰冷的數(shù)字”,它們是“多愁善感的精靈”,正如布魯斯·斯普林斯汀在一首歌中唱道,它們需要“一點(diǎn)點(diǎn)的人情味”。人們可以通過(guò)開(kāi)發(fā)良好的指標(biāo)和強(qiáng)大的算法來(lái)挖掘數(shù)據(jù)。但這遠(yuǎn)遠(yuǎn)不夠,人們必須通過(guò)自己的認(rèn)識(shí)和見(jiàn)解才能真正地了解數(shù)據(jù)的“內(nèi)心世界”,才能充分利用數(shù)據(jù)背后的價(jià)值。有的數(shù)據(jù)很“直白”,有的卻很“委婉”,我們不能一概而論。
算法的局限性
進(jìn)一步說(shuō),我們更希望大數(shù)據(jù)可以讓企業(yè)用戶直接即時(shí)地訪問(wèn)數(shù)據(jù),這樣他們就可以隨時(shí)隨地、有如神助般的做出每一個(gè)最佳決策。愿望是美好的,只不過(guò)以我們當(dāng)前的技術(shù)條件來(lái)看,我們還達(dá)不到這么復(fù)雜神奇的水平。
要做到這一點(diǎn),首先我們需要足夠多的數(shù)據(jù)專家來(lái)幫助我們分析處理數(shù)據(jù),從大量的信息中提取出有效信息。同Kholsa Ventures一道投資了數(shù)家大數(shù)據(jù)技術(shù)公司(例如Parstream)的投資者基斯·拉波斯表示,公司非常需要一個(gè)數(shù)據(jù)專家來(lái)指導(dǎo)處理復(fù)雜數(shù)據(jù)分析,只不過(guò)大多數(shù)的企業(yè)用戶很難做到這一點(diǎn)。
拉波斯說(shuō),你會(huì)需要這些數(shù)據(jù)專家來(lái)開(kāi)發(fā)應(yīng)用和算法,承擔(dān)大量的數(shù)據(jù)研究任務(wù)。但是在已經(jīng)擁有這些數(shù)據(jù)專家的公司里,這些數(shù)據(jù)專家也并非一直在從事這些高級(jí)復(fù)雜的數(shù)據(jù)工作,大概部分原因是由于他們需要花時(shí)間去處理一些比較簡(jiǎn)單的數(shù)據(jù)分析。數(shù)據(jù)專家的才能在這里大大地被埋沒(méi)了。
在最理想的情況下,拉波斯繼續(xù)說(shuō)道,數(shù)據(jù)專家開(kāi)發(fā)出一套工具,當(dāng)有一方需要答案時(shí)可以迅速地在整個(gè)組織里尋找分析的答案。在現(xiàn)今這個(gè)時(shí)代,速度就是一切。我們最不希望看到發(fā)生的事情就是,當(dāng)我們急切地需要答案時(shí),我們只能寄希望于數(shù)據(jù)專家,然后被動(dòng)地等待。
出發(fā)點(diǎn)固然是好的,但問(wèn)題在于即使是最聰明的人開(kāi)發(fā)出了最復(fù)雜的算法,對(duì)于復(fù)雜的問(wèn)題仍然沒(méi)有最直接的答案。無(wú)論多么復(fù)雜的算法,也無(wú)法做到全盤考慮,對(duì)于難以衡量的特定因素更加束手無(wú)策。如果某個(gè)算法可以全部做到這些,那就無(wú)異于人類的大腦,屆時(shí)麻煩可能更大了。
我需要一個(gè)優(yōu)秀的“中場(chǎng)手”
棒球比賽可以幫助我們更好地理解算法的局限性——水平相當(dāng)?shù)膬蓚€(gè)選手,他們的表現(xiàn)可以相去甚遠(yuǎn)。數(shù)據(jù)極客們會(huì)告訴你,經(jīng)過(guò)多年的研究開(kāi)發(fā),他們創(chuàng)造了Sabermetrics算法,可以為你提供挑選最佳球手所需要的所有決策信息。他們還開(kāi)發(fā)了一整個(gè)系列的數(shù)據(jù)統(tǒng)計(jì)算法,比如“替換勝率(Wins Above Replacement)”。FanGraphs對(duì)“替換勝率”的解釋如下:“如果某一個(gè)隊(duì)員負(fù)傷不能上場(chǎng),他們的球隊(duì)不得不找一個(gè)次級(jí)棒球聯(lián)賽球隊(duì)隊(duì)員或者‘稍遜一籌’的板凳球員做替補(bǔ)時(shí),損失有多少?”對(duì)此,他們采用了一系列標(biāo)準(zhǔn)來(lái)衡量計(jì)算兩者之間的勝率差別。
這種復(fù)雜的算法若是僅僅用來(lái)準(zhǔn)確地衡量球員的價(jià)值,那倒是沒(méi)什么大問(wèn)題。但是有些問(wèn)題,比如某個(gè)球員在壓力下的表現(xiàn)如何?他是否刻苦練習(xí)?他是哪一種類型的隊(duì)長(zhǎng)?又或者他跟隊(duì)員的相處配合得如何?所有這些問(wèn)題該怎么用算法去計(jì)算?難道這些問(wèn)題就不重要了嗎?如果要納入算法的考慮范圍,又要怎么去量化這些因素呢?
純數(shù)據(jù)分析的追隨者會(huì)告訴你一切都可以量化,也許他們說(shuō)的沒(méi)錯(cuò)。但是我也的確看到過(guò)很多水平相當(dāng)?shù)倪x手,在幾乎相同的條件下,他們的表現(xiàn)是有差距的,盡管從數(shù)據(jù)分析上來(lái)看他們的表現(xiàn)應(yīng)該很接近。
在企業(yè)中,人力資源專家在招聘自由程序設(shè)計(jì)師時(shí)也會(huì)遇到類似棒球選手的情況。你可能會(huì)有兩個(gè)專業(yè)技能水平相當(dāng)?shù)膽?yīng)聘者前來(lái)應(yīng)聘該職位,但其中一人的人際關(guān)系技能更勝一籌,能夠很好地與同事合作,而另一個(gè)應(yīng)聘者則難以相處和合作,顯然僅從簡(jiǎn)歷中很難看出這些“軟實(shí)力”。即使有大量的數(shù)據(jù)支持,也很難顧及到方方面面可能產(chǎn)生的結(jié)果,尤其又涉及到人的時(shí)候。
差之毫厘謬之千里
任何一個(gè)負(fù)責(zé)任的醫(yī)生都會(huì)嚴(yán)謹(jǐn)?shù)馗嬖V你,即使兩個(gè)病人的癥狀非常相似,采取的治療手段也不會(huì)相同,仍需要嚴(yán)格按照個(gè)體的差異性來(lái)決定,年齡、體重、其他的健康問(wèn)題和特殊因素等等,都會(huì)影響最終的治療效果。
就拿醫(yī)療過(guò)程中使用的智能分析平臺(tái)IBM Watson來(lái)說(shuō)。當(dāng)我向一個(gè)朋友說(shuō)起最近有的醫(yī)生開(kāi)始采用Watson輔助診斷和制定療程時(shí),他立刻炸毛了。他堅(jiān)決表示自己的健康問(wèn)題和治療手段不需要一臺(tái)機(jī)器來(lái)決定。他的擔(dān)心完全在理,但是在Watson的例子中,這臺(tái)機(jī)器并沒(méi)有直接給醫(yī)生提供可以盲從的答案,只是根據(jù)已有的跡象、患者信息、病癥再結(jié)合當(dāng)前對(duì)此病癥的科學(xué)研究結(jié)果,給出治療的參考方案而已。
正如我之前描述的數(shù)據(jù)專家的情況一樣,醫(yī)生們同樣也很忙碌,他們不可能一邊給患者看病一邊還要熟知自己領(lǐng)域的所有最新進(jìn)展。相關(guān)的研究實(shí)在太多了(當(dāng)然這是一件好事)。所以他們需要Watson的輔助。Watson能夠快速地過(guò)濾目前的研究,但是仍然需要醫(yī)生根據(jù)實(shí)際情況來(lái)決定最終的治療方向。我更愿意把這個(gè)過(guò)程稱為科學(xué)中的藝術(shù)。知識(shí)給我們帶來(lái)了無(wú)限的可能性,但最終的決定權(quán)仍在于醫(yī)生而不是機(jī)器。
企業(yè)同樣也會(huì)面臨類似不確定性,這時(shí)候就需要人的介入,運(yùn)用他們的知識(shí),借助數(shù)據(jù)的力量,為不確定性做出決策。
很多時(shí)候機(jī)器可以給出人們需要耗費(fèi)數(shù)年時(shí)間才能得出的答案和遠(yuǎn)見(jiàn)。貝克指出,比如大數(shù)據(jù)已經(jīng)在幫助我們更深刻地了解疾病,尤其是癌癥,有很多方面都是人類研究人員從未涉及過(guò)的?!皼](méi)有大數(shù)據(jù)給我們提供足夠的數(shù)據(jù)信息,我們永遠(yuǎn)都不會(huì)找到最佳治療方案(至少最近幾年毫無(wú)希望)。在這里,我想說(shuō)的是,大數(shù)據(jù)‘的確’可以十分精準(zhǔn)?!?/span>
而且她還相信機(jī)器的學(xué)習(xí)能力在不遠(yuǎn)的將來(lái)一定會(huì)達(dá)到一個(gè)足夠成熟的階段。屆時(shí)機(jī)器或許可以替我們做更多的決策,因?yàn)槿祟惖拇竽X能力畢竟有限,無(wú)法一下子處理所有的可用信息。
我不能說(shuō)她的預(yù)想是錯(cuò)誤的,然而就目前看來(lái),采集和處理數(shù)據(jù)的能力遠(yuǎn)遠(yuǎn)超過(guò)了對(duì)這些數(shù)據(jù)的理解能力。貝克也談到,預(yù)測(cè)分析一直在前進(jìn)發(fā)展,有時(shí)候數(shù)據(jù)可以直接給出答案,但在更多的情況下,這仍然是一個(gè)復(fù)雜的人機(jī)交互過(guò)程。即使技術(shù)在不斷向前發(fā)展,這兩者之間如何才能完美的合作仍是一個(gè)難題。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過(guò)程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語(yǔ)言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11