
“大數(shù)據(jù)”還不等于“大智慧”_數(shù)據(jù)分析師
技術(shù)開發(fā)商和媒體早早地為我們描繪了一個(gè)即將來臨的“大數(shù)據(jù)時(shí)代”?!按髷?shù)據(jù)”無所不知無所不能;有了“大數(shù)據(jù)”的支持,公司運(yùn)行效率突飛猛進(jìn);“大數(shù)據(jù)”還能幫你做出最明智的決策,使你的公司所向披靡。簡直不要太棒!但是在這里提醒各位,正如所有的高科技宣傳一樣,“大數(shù)據(jù)”也不可避免地被炒作夸大。于是,你還相信未來嗎?
近幾年以來,“大數(shù)據(jù)”已經(jīng)傳得沸沸揚(yáng)揚(yáng)。技術(shù)開發(fā)商和媒體記者鋪天蓋地式的宣傳,你怎么可能不知道“大數(shù)據(jù)”?即使不知道也總會聽說過。讓我們來看看他們是怎么大力宣傳所謂的“大數(shù)據(jù)”:“大數(shù)據(jù)”無所不知無所不能;有了“大數(shù)據(jù)”的支持,公司運(yùn)行效率突飛猛進(jìn);“大數(shù)據(jù)”還能幫助你了解數(shù)據(jù),做出最明智的決策,使你的公司時(shí)刻都充滿了競爭優(yōu)勢。
多么具有誘惑力的宣傳!當(dāng)然我們不能百分之百地說報(bào)道違背了事實(shí)。只是人們對于高科技的宣傳總是過于樂觀超前。事實(shí)上,很多公司都發(fā)現(xiàn)以目前的條件實(shí)現(xiàn)“大數(shù)據(jù)”困難重重,理想很豐滿,現(xiàn)實(shí)卻很骨感。的確,在數(shù)據(jù)的收集和處理方面,可能具有可觀的優(yōu)勢。但真正的使用這些數(shù)據(jù)、乃至借助這些制定更優(yōu)化的決策則完全又是另一回事。那么問題出在哪里呢?多數(shù)公司表示在“大數(shù)據(jù)”和對大數(shù)據(jù)的“大理解”之間,缺少了某個(gè)重要的聯(lián)系。如果這個(gè)問題得不到解決,那么人們只是空有一堆看似有用的數(shù)據(jù),卻難以從中挖掘出有用的價(jià)值。
正如硅谷的一名資深業(yè)內(nèi)人士最近透露,盡管從近日創(chuàng)業(yè)公司的活動和融資情況來看,大數(shù)據(jù)的數(shù)據(jù)采集和處理似乎受到廣泛關(guān)注,但是現(xiàn)實(shí)和預(yù)期之間的巨大差距依然無法視而不見。他說,“大數(shù)據(jù)還沒有真正轉(zhuǎn)化為大認(rèn)識、大洞見和大智慧?!币运麄兊念A(yù)測,我們離真正的“大數(shù)據(jù)”時(shí)代還有很長的一段路要走。
炒作和現(xiàn)實(shí),不可混為一談
我們希望從大數(shù)據(jù)中獲取價(jià)值的方法越簡單越好,比如導(dǎo)入數(shù)據(jù),運(yùn)行程序,最后得出富有遠(yuǎn)見的結(jié)論。你覺得這可能嗎?如果智慧那么容易獲得,那人人都可以是喬布斯了。事實(shí)上,從大數(shù)據(jù)中獲得有價(jià)值的信息遠(yuǎn)比“導(dǎo)入、運(yùn)行、輸出三部曲”要復(fù)雜得多?!啊稊?shù)據(jù)預(yù)測:大數(shù)據(jù)戰(zhàn)略》(Data Divination:Big Data Strategies)”一書的作者帕姆·貝克(Pam Baker)說,數(shù)據(jù)直接給出答案的實(shí)例確實(shí)存在,但只存在于特定的情況下,鮮有發(fā)生。我們不能寄希望于例外,我們需要的是普遍規(guī)律。
“也許,有人會辯解說,我們可以舉出很多例子,在這些例子中,數(shù)據(jù)往往可以給出非常明確的答案。比如預(yù)測分析學(xué)可以精確地預(yù)測出飛機(jī)或供水系統(tǒng)中的某個(gè)零部件的報(bào)廢時(shí)間,還能告訴我們替換零部件的最佳時(shí)間,以便于在舊部件報(bào)廢之前最大化地利用其剩余價(jià)值。”貝克解釋道。
“但是,”她馬上又強(qiáng)調(diào),“更多的情況下,我們是沒有辦法直接獲得想要的答案的。你可以從諸多可能的行為中選擇一個(gè)或者什么都不做,具體情況具體分析,這才是我們所面臨的真實(shí)情況?!?/span>
貝克一語中的。一些基于數(shù)據(jù)的決策的確是這樣。數(shù)據(jù)不是“冰冷的數(shù)字”,它們是“多愁善感的精靈”,正如布魯斯·斯普林斯汀在一首歌中唱道,它們需要“一點(diǎn)點(diǎn)的人情味”。人們可以通過開發(fā)良好的指標(biāo)和強(qiáng)大的算法來挖掘數(shù)據(jù)。但這遠(yuǎn)遠(yuǎn)不夠,人們必須通過自己的認(rèn)識和見解才能真正地了解數(shù)據(jù)的“內(nèi)心世界”,才能充分利用數(shù)據(jù)背后的價(jià)值。有的數(shù)據(jù)很“直白”,有的卻很“委婉”,我們不能一概而論。
算法的局限性
進(jìn)一步說,我們更希望大數(shù)據(jù)可以讓企業(yè)用戶直接即時(shí)地訪問數(shù)據(jù),這樣他們就可以隨時(shí)隨地、有如神助般的做出每一個(gè)最佳決策。愿望是美好的,只不過以我們當(dāng)前的技術(shù)條件來看,我們還達(dá)不到這么復(fù)雜神奇的水平。
要做到這一點(diǎn),首先我們需要足夠多的數(shù)據(jù)專家來幫助我們分析處理數(shù)據(jù),從大量的信息中提取出有效信息。同Kholsa Ventures一道投資了數(shù)家大數(shù)據(jù)技術(shù)公司(例如Parstream)的投資者基斯·拉波斯表示,公司非常需要一個(gè)數(shù)據(jù)專家來指導(dǎo)處理復(fù)雜數(shù)據(jù)分析,只不過大多數(shù)的企業(yè)用戶很難做到這一點(diǎn)。
拉波斯說,你會需要這些數(shù)據(jù)專家來開發(fā)應(yīng)用和算法,承擔(dān)大量的數(shù)據(jù)研究任務(wù)。但是在已經(jīng)擁有這些數(shù)據(jù)專家的公司里,這些數(shù)據(jù)專家也并非一直在從事這些高級復(fù)雜的數(shù)據(jù)工作,大概部分原因是由于他們需要花時(shí)間去處理一些比較簡單的數(shù)據(jù)分析。數(shù)據(jù)專家的才能在這里大大地被埋沒了。
在最理想的情況下,拉波斯繼續(xù)說道,數(shù)據(jù)專家開發(fā)出一套工具,當(dāng)有一方需要答案時(shí)可以迅速地在整個(gè)組織里尋找分析的答案。在現(xiàn)今這個(gè)時(shí)代,速度就是一切。我們最不希望看到發(fā)生的事情就是,當(dāng)我們急切地需要答案時(shí),我們只能寄希望于數(shù)據(jù)專家,然后被動地等待。
出發(fā)點(diǎn)固然是好的,但問題在于即使是最聰明的人開發(fā)出了最復(fù)雜的算法,對于復(fù)雜的問題仍然沒有最直接的答案。無論多么復(fù)雜的算法,也無法做到全盤考慮,對于難以衡量的特定因素更加束手無策。如果某個(gè)算法可以全部做到這些,那就無異于人類的大腦,屆時(shí)麻煩可能更大了。
我需要一個(gè)優(yōu)秀的“中場手”
棒球比賽可以幫助我們更好地理解算法的局限性——水平相當(dāng)?shù)膬蓚€(gè)選手,他們的表現(xiàn)可以相去甚遠(yuǎn)。數(shù)據(jù)極客們會告訴你,經(jīng)過多年的研究開發(fā),他們創(chuàng)造了Sabermetrics算法,可以為你提供挑選最佳球手所需要的所有決策信息。他們還開發(fā)了一整個(gè)系列的數(shù)據(jù)統(tǒng)計(jì)算法,比如“替換勝率(Wins Above Replacement)”。FanGraphs對“替換勝率”的解釋如下:“如果某一個(gè)隊(duì)員負(fù)傷不能上場,他們的球隊(duì)不得不找一個(gè)次級棒球聯(lián)賽球隊(duì)隊(duì)員或者‘稍遜一籌’的板凳球員做替補(bǔ)時(shí),損失有多少?”對此,他們采用了一系列標(biāo)準(zhǔn)來衡量計(jì)算兩者之間的勝率差別。
這種復(fù)雜的算法若是僅僅用來準(zhǔn)確地衡量球員的價(jià)值,那倒是沒什么大問題。但是有些問題,比如某個(gè)球員在壓力下的表現(xiàn)如何?他是否刻苦練習(xí)?他是哪一種類型的隊(duì)長?又或者他跟隊(duì)員的相處配合得如何?所有這些問題該怎么用算法去計(jì)算?難道這些問題就不重要了嗎?如果要納入算法的考慮范圍,又要怎么去量化這些因素呢?
純數(shù)據(jù)分析的追隨者會告訴你一切都可以量化,也許他們說的沒錯。但是我也的確看到過很多水平相當(dāng)?shù)倪x手,在幾乎相同的條件下,他們的表現(xiàn)是有差距的,盡管從數(shù)據(jù)分析上來看他們的表現(xiàn)應(yīng)該很接近。
在企業(yè)中,人力資源專家在招聘自由程序設(shè)計(jì)師時(shí)也會遇到類似棒球選手的情況。你可能會有兩個(gè)專業(yè)技能水平相當(dāng)?shù)膽?yīng)聘者前來應(yīng)聘該職位,但其中一人的人際關(guān)系技能更勝一籌,能夠很好地與同事合作,而另一個(gè)應(yīng)聘者則難以相處和合作,顯然僅從簡歷中很難看出這些“軟實(shí)力”。即使有大量的數(shù)據(jù)支持,也很難顧及到方方面面可能產(chǎn)生的結(jié)果,尤其又涉及到人的時(shí)候。
差之毫厘謬之千里
任何一個(gè)負(fù)責(zé)任的醫(yī)生都會嚴(yán)謹(jǐn)?shù)馗嬖V你,即使兩個(gè)病人的癥狀非常相似,采取的治療手段也不會相同,仍需要嚴(yán)格按照個(gè)體的差異性來決定,年齡、體重、其他的健康問題和特殊因素等等,都會影響最終的治療效果。
就拿醫(yī)療過程中使用的智能分析平臺IBM Watson來說。當(dāng)我向一個(gè)朋友說起最近有的醫(yī)生開始采用Watson輔助診斷和制定療程時(shí),他立刻炸毛了。他堅(jiān)決表示自己的健康問題和治療手段不需要一臺機(jī)器來決定。他的擔(dān)心完全在理,但是在Watson的例子中,這臺機(jī)器并沒有直接給醫(yī)生提供可以盲從的答案,只是根據(jù)已有的跡象、患者信息、病癥再結(jié)合當(dāng)前對此病癥的科學(xué)研究結(jié)果,給出治療的參考方案而已。
正如我之前描述的數(shù)據(jù)專家的情況一樣,醫(yī)生們同樣也很忙碌,他們不可能一邊給患者看病一邊還要熟知自己領(lǐng)域的所有最新進(jìn)展。相關(guān)的研究實(shí)在太多了(當(dāng)然這是一件好事)。所以他們需要Watson的輔助。Watson能夠快速地過濾目前的研究,但是仍然需要醫(yī)生根據(jù)實(shí)際情況來決定最終的治療方向。我更愿意把這個(gè)過程稱為科學(xué)中的藝術(shù)。知識給我們帶來了無限的可能性,但最終的決定權(quán)仍在于醫(yī)生而不是機(jī)器。
企業(yè)同樣也會面臨類似不確定性,這時(shí)候就需要人的介入,運(yùn)用他們的知識,借助數(shù)據(jù)的力量,為不確定性做出決策。
未來我們能走多遠(yuǎn)?
很多時(shí)候機(jī)器可以給出人們需要耗費(fèi)數(shù)年時(shí)間才能得出的答案和遠(yuǎn)見。貝克指出,比如大數(shù)據(jù)已經(jīng)在幫助我們更深刻地了解疾病,尤其是癌癥,有很多方面都是人類研究人員從未涉及過的?!皼]有大數(shù)據(jù)給我們提供足夠的數(shù)據(jù)信息,我們永遠(yuǎn)都不會找到最佳治療方案(至少最近幾年毫無希望)。在這里,我想說的是,大數(shù)據(jù)‘的確’可以十分精準(zhǔn)。”
而且她還相信機(jī)器的學(xué)習(xí)能力在不遠(yuǎn)的將來一定會達(dá)到一個(gè)足夠成熟的階段。屆時(shí)機(jī)器或許可以替我們做更多的決策,因?yàn)槿祟惖拇竽X能力畢竟有限,無法一下子處理所有的可用信息。
我不能說她的預(yù)想是錯誤的,然而就目前看來,采集和處理數(shù)據(jù)的能力遠(yuǎn)遠(yuǎn)超過了對這些數(shù)據(jù)的理解能力。貝克也談到,預(yù)測分析一直在前進(jìn)發(fā)展,有時(shí)候數(shù)據(jù)可以直接給出答案,但在更多的情況下,這仍然是一個(gè)復(fù)雜的人機(jī)交互過程。即使技術(shù)在不斷向前發(fā)展,這兩者之間如何才能完美的合作仍是一個(gè)難題。
除非我們能從中找到一個(gè)折中的辦法或者機(jī)器的技術(shù)能有大幅度的提升,否則我們?nèi)詫⒚媾R一個(gè)智慧的鴻溝,需要時(shí)間和技術(shù)的進(jìn)步來慢慢填補(bǔ)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘龌蚴窃诼殘稣媾R崗位替代、技能更新、人機(jī)協(xié)作等焦慮的打工人,想要找到一條破解職場焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價(jià)值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時(shí)代的價(jià)值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競爭力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實(shí)現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價(jià)值的橋梁? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細(xì)化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時(shí)代的通行證? 在數(shù)字化浪潮席卷全球的今天,當(dāng)企業(yè)決策者盯著屏幕上跳動的數(shù)據(jù)曲線尋找增長密碼,當(dāng)科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的實(shí)戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項(xiàng)” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實(shí)踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計(jì)中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運(yùn)維與開發(fā)中,開發(fā)者和 DBA 常會 ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時(shí)代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11