
馬上就要進(jìn)入 2015 年了,你可能已經(jīng)知道人們立馬就會(huì)想到“大數(shù)據(jù)”。怎么會(huì)想不到呢?廠商和記者們一直在不停地說它。你也知道他們是怎么宣傳的,對(duì)吧?大數(shù)據(jù)將給出所有答案,讓公司運(yùn)行得更高效,幫助公司作出基于數(shù)據(jù)的明智決策,進(jìn)而讓公司具備強(qiáng)大的競爭優(yōu)勢(shì)。
在某些程度上,上面所說的沒錯(cuò),但和其他過度炒作的技術(shù)一樣,許多公司發(fā)現(xiàn)難以部署大數(shù)據(jù)技術(shù),而且現(xiàn)實(shí)情況也和炒作表現(xiàn)得截然不同。他們或許找到了收集和處理數(shù)據(jù)的有效方法,但用它來作更好的決策則是另一個(gè)問題了。這些公司發(fā)現(xiàn),在大數(shù)據(jù)和大數(shù)據(jù)理解之間缺失了關(guān)鍵的一環(huán),如果不找到方法來解決這個(gè)問題,它們就只能空守一大堆令人困惑的數(shù)據(jù),卻沒有多少收獲。
正如一名硅谷資深人士最近告訴我的,盡管從創(chuàng)業(yè)公司活動(dòng)和融資上看,大數(shù)據(jù)收集和處理最近獲得了眾多關(guān)注,但在預(yù)期和結(jié)果之間仍然存在著巨大差距。正如此人所指出的:“大數(shù)據(jù)還未能轉(zhuǎn)化為大知識(shí)、大洞見和大智慧?!卑凑账麄兊念A(yù)測,距離這一情況變成現(xiàn)實(shí)還有一段路要走。
區(qū)分炒作和現(xiàn)實(shí)
我們想相信從大數(shù)據(jù)中獲得價(jià)值非常簡單,只需導(dǎo)入數(shù)據(jù),運(yùn)行程序,就能獲得洞見。但事實(shí)上,從大數(shù)據(jù)中獲得洞見的過程要復(fù)雜得多。《數(shù)據(jù)預(yù)測:大數(shù)據(jù)戰(zhàn)略》(DataDivination: Big Data Strategies) 一書的作者帕姆·貝克 (Pam Baker) 表示,盡管存在數(shù)據(jù)直接給出答案的例子,但這并非常態(tài)。
她解釋道:“在很多情況中,數(shù)據(jù)可以給出很確定的答案。比如,預(yù)測性分析能精確地預(yù)測某個(gè)飛機(jī)零件或水系統(tǒng)零件報(bào)廢的時(shí)間,也能告知我們更新新零件的具體時(shí)間,以便在舊零件報(bào)廢之前盡可能地利用它?!?/span>
但她補(bǔ)充道:“也有很多時(shí)候,數(shù)據(jù)沒法給出確定的答案,但你可以從諸多可能的行動(dòng)中選擇一個(gè),或者選擇不采取任何行動(dòng)。這一切都要取決于你在做的事情?!?/span>
貝克的看法是對(duì)的,一些數(shù)據(jù)驅(qū)動(dòng)的決策要微妙得多,也需要一點(diǎn)點(diǎn)人性化。人們能通過開發(fā)可靠的指標(biāo)和強(qiáng)大的算法來起到幫助作用。但他們也必須弄清楚如何最大化利用起數(shù)據(jù)所透露出的信息來。這些信息有時(shí)候很直接,但通常并不如此。
專家鴻溝
我們也愿意相信,大數(shù)據(jù)會(huì)讓企業(yè)用戶能立刻直接訪問數(shù)據(jù),以便在這個(gè)過程之中就能作出最好的決策。不幸的是,現(xiàn)在的工具還沒有成熟到這種程度。
為了幫助解決這一問題,我們需要更多數(shù)據(jù)專家來幫助我們處理數(shù)據(jù),并從海量信息中發(fā)現(xiàn)答案。投資了大數(shù)據(jù)公司如 Parstream 的 Kholsa Ventures 投資合伙人 基斯? 拉波斯(KeithRabois) 表示,公司需要配備數(shù)據(jù)科學(xué)家來進(jìn)行深度研究,這可不是一般公司能做到的。
拉波斯稱,你也許想讓數(shù)據(jù)科學(xué)家們來開發(fā)應(yīng)用和算法,從事重大的數(shù)據(jù)科學(xué)項(xiàng)目,但在擁有數(shù)據(jù)科學(xué)家的公司中,他們并不總是有時(shí)間來做這些事,部分原因是他們要花時(shí)間來做不那么深度的研究,而這樣的研究不能充分利用他們的技能。
拉波斯還說道,在最好的情況下,數(shù)據(jù)科學(xué)家已經(jīng)開發(fā)出了工具,能在各方需要答案時(shí)在組織內(nèi)分發(fā)分析。我們不想要的情況是,當(dāng)我們需要答案時(shí),就跑去問數(shù)據(jù)專家,然后坐等答案。
問題是,即便是最聰明的人開發(fā)出最成熟的算法,對(duì)于復(fù)雜問題,這些算法也并不總能給出最確定的答案。算法根本不可能考慮到所有選項(xiàng),也不能考慮到極難測量到的特定因素。
給我找個(gè)好的中場手
棒球就是個(gè)很好的例子,理論上兩個(gè)各方面都相似的棒球選手,各自的比賽表現(xiàn)可能差別很大。數(shù)據(jù)專家們會(huì)告訴你,他們經(jīng)過多年研究開發(fā)的 Sabermetrics 算法將提供挑選選手的所有信息,幫助你找到適合某個(gè)角色的好棒球選手。他們還開發(fā)出了諸如 替換勝率 (WinsAbove Replacement) 的算法,FanGraphs 對(duì)這一算法的描述是:“如果這名選手受傷,其球隊(duì)不得不用次級(jí)棒球聯(lián)賽球員或(表現(xiàn)不佳)的選手來替換,這支球隊(duì)會(huì)丟多少分?”他們使用一系列復(fù)雜的指標(biāo)來衡量更換球員導(dǎo)致的勝率差異。
無疑,這些成熟的指標(biāo)能更精確地幫助計(jì)算選手的價(jià)值,但它測量不到所有東西,比如在壓力下的表現(xiàn),練習(xí)的勤奮程度,是哪種隊(duì)長以及與隊(duì)友相處得有多好。這些因素都很重要,也都要難量化得多。
純統(tǒng)計(jì)測量的信徒會(huì)告訴你,一切皆可測量。大部分情況的確如此,但我很多時(shí)候也看到,理論上各方面都相似的棒球選手,卻未能像前任選手一樣扮演好某一角色,盡管他們的數(shù)據(jù)相似度很高。
將這一情況應(yīng)用到企業(yè)中,人力資源專家在一個(gè)開放的程序員職位上可能會(huì)碰到類似的問題。申請(qǐng)這份工作的兩個(gè)程序員可能擁有相似的技能,但一個(gè)擁有與人打交道的能力,可以和其他員工很好地進(jìn)行合作,而另一個(gè)人的溝通能力很差。這方面可不會(huì)在簡歷上體現(xiàn)出來。即便擁有大量數(shù)據(jù),也很難考慮到所有可能的結(jié)果,尤其是涉及到人時(shí)。
想想醫(yī)療診斷的細(xì)微差別
好醫(yī)生都會(huì)告訴你,哪怕兩個(gè)病人癥狀相同,也可能要根據(jù)年齡、體重、其他健康問題以及因素來采取不同的治療手段。
想想在醫(yī)療中使用 IBM Watson 智能分析平臺(tái)的情形。當(dāng)我最近對(duì)一位朋友談起,一些醫(yī)生正使用 Watson 來幫助診斷和作出治療決策,他生氣了。他不想讓一臺(tái)機(jī)器來決定自己的治療手段。這是很正當(dāng)?shù)膿?dān)憂,但在我所說的情況中,Watson 并沒有給出醫(yī)生會(huì)盲從的答案,而是基于已有跡象、病人信息、癥狀及當(dāng)前研究提供一些治療選項(xiàng)。
正如我指出的,忙碌的醫(yī)生不可能一邊工作一邊跟蹤自身領(lǐng)域的所有研究。因?yàn)橄嚓P(guān)研究太多了(這是好事)。這也是 Watson 發(fā)揮作用的地方。Watson 能夠以比人快得多的速度快速過濾最近的研究,但仍然需要醫(yī)生來理解病人的細(xì)微差別,從而確定治療方向。我將這一過程稱為科學(xué)中的藝術(shù)。知識(shí)只能帶你到這么遠(yuǎn),最終的決定權(quán)依然在醫(yī)生而不是機(jī)器手中。
企業(yè)很可能會(huì)面臨類似的不確定結(jié)果,必須有人介入,運(yùn)用自己的知識(shí),在數(shù)據(jù)的幫助下做出選擇。
前進(jìn)的方向?
有時(shí)候機(jī)器能發(fā)現(xiàn)人需要數(shù)年時(shí)間才能弄懂的答案和洞見。比如,貝克指出,大數(shù)據(jù)幫助我們發(fā)現(xiàn)了有關(guān)癌癥等疾病的答案,涉及的因素從未有人類研究員考慮過?!叭绻髷?shù)據(jù)沒有發(fā)現(xiàn)這一信息,我們或許永遠(yuǎn)也不會(huì)發(fā)現(xiàn)合適的療法(或者至少要過很多年)。我的觀點(diǎn)是,大數(shù)據(jù)可以非常精確”,她對(duì)我表示道。
而且,她相信機(jī)器學(xué)習(xí)會(huì)在不遠(yuǎn)的將來發(fā)展得足夠成熟,屆時(shí)機(jī)器或許會(huì)為我們作更多決策,因?yàn)槲覀兊拇竽X無法同時(shí)處理所有信息。
她說的也許沒錯(cuò),但就現(xiàn)在來說,收集和處理數(shù)據(jù)的能力已經(jīng)走在了理解數(shù)據(jù)含義的前面。正如貝克提到的,預(yù)測性分析一直在提高,有時(shí)候數(shù)據(jù)會(huì)直接指向答案,但這仍然是個(gè)復(fù)雜的人機(jī)互助過程。即便技術(shù)大步向前,人與機(jī)器如何在一起協(xié)作也依然處于探索中。
除非我們找到平衡點(diǎn),或者在整個(gè)過程得益于機(jī)器出現(xiàn)大幅進(jìn)展之前,我們都要面臨大智慧鴻溝,這將需要一些時(shí)間和技術(shù)進(jìn)步來填補(bǔ)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11