
馬上就要進(jìn)入 2015 年了,你可能已經(jīng)知道人們立馬就會(huì)想到“大數(shù)據(jù)”。怎么會(huì)想不到呢?廠商和記者們一直在不停地說(shuō)它。你也知道他們是怎么宣傳的,對(duì)吧?大數(shù)據(jù)將給出所有答案,讓公司運(yùn)行得更高效,幫助公司作出基于數(shù)據(jù)的明智決策,進(jìn)而讓公司具備強(qiáng)大的競(jìng)爭(zhēng)優(yōu)勢(shì)。
在某些程度上,上面所說(shuō)的沒(méi)錯(cuò),但和其他過(guò)度炒作的技術(shù)一樣,許多公司發(fā)現(xiàn)難以部署大數(shù)據(jù)技術(shù),而且現(xiàn)實(shí)情況也和炒作表現(xiàn)得截然不同。他們或許找到了收集和處理數(shù)據(jù)的有效方法,但用它來(lái)作更好的決策則是另一個(gè)問(wèn)題了。這些公司發(fā)現(xiàn),在大數(shù)據(jù)和大數(shù)據(jù)理解之間缺失了關(guān)鍵的一環(huán),如果不找到方法來(lái)解決這個(gè)問(wèn)題,它們就只能空守一大堆令人困惑的數(shù)據(jù),卻沒(méi)有多少收獲。
正如一名硅谷資深人士最近告訴我的,盡管從創(chuàng)業(yè)公司活動(dòng)和融資上看,大數(shù)據(jù)收集和處理最近獲得了眾多關(guān)注,但在預(yù)期和結(jié)果之間仍然存在著巨大差距。正如此人所指出的:“大數(shù)據(jù)還未能轉(zhuǎn)化為大知識(shí)、大洞見(jiàn)和大智慧?!卑凑账麄兊念A(yù)測(cè),距離這一情況變成現(xiàn)實(shí)還有一段路要走。
區(qū)分炒作和現(xiàn)實(shí)
我們想相信從大數(shù)據(jù)中獲得價(jià)值非常簡(jiǎn)單,只需導(dǎo)入數(shù)據(jù),運(yùn)行程序,就能獲得洞見(jiàn)。但事實(shí)上,從大數(shù)據(jù)中獲得洞見(jiàn)的過(guò)程要復(fù)雜得多?!稊?shù)據(jù)預(yù)測(cè):大數(shù)據(jù)戰(zhàn)略》(DataDivination: Big Data Strategies) 一書(shū)的作者帕姆·貝克 (Pam Baker) 表示,盡管存在數(shù)據(jù)直接給出答案的例子,但這并非常態(tài)。
她解釋道:“在很多情況中,數(shù)據(jù)可以給出很確定的答案。比如,預(yù)測(cè)性分析能精確地預(yù)測(cè)某個(gè)飛機(jī)零件或水系統(tǒng)零件報(bào)廢的時(shí)間,也能告知我們更新新零件的具體時(shí)間,以便在舊零件報(bào)廢之前盡可能地利用它。”
但她補(bǔ)充道:“也有很多時(shí)候,數(shù)據(jù)沒(méi)法給出確定的答案,但你可以從諸多可能的行動(dòng)中選擇一個(gè),或者選擇不采取任何行動(dòng)。這一切都要取決于你在做的事情。”
貝克的看法是對(duì)的,一些數(shù)據(jù)驅(qū)動(dòng)的決策要微妙得多,也需要一點(diǎn)點(diǎn)人性化。人們能通過(guò)開(kāi)發(fā)可靠的指標(biāo)和強(qiáng)大的算法來(lái)起到幫助作用。但他們也必須弄清楚如何最大化利用起數(shù)據(jù)所透露出的信息來(lái)。這些信息有時(shí)候很直接,但通常并不如此。
專家鴻溝
我們也愿意相信,大數(shù)據(jù)會(huì)讓企業(yè)用戶能立刻直接訪問(wèn)數(shù)據(jù),以便在這個(gè)過(guò)程之中就能作出最好的決策。不幸的是,現(xiàn)在的工具還沒(méi)有成熟到這種程度。
為了幫助解決這一問(wèn)題,我們需要更多數(shù)據(jù)專家來(lái)幫助我們處理數(shù)據(jù),并從海量信息中發(fā)現(xiàn)答案。投資了大數(shù)據(jù)公司如 Parstream 的 Kholsa Ventures 投資合伙人 基斯? 拉波斯(KeithRabois) 表示,公司需要配備數(shù)據(jù)科學(xué)家來(lái)進(jìn)行深度研究,這可不是一般公司能做到的。
拉波斯稱,你也許想讓數(shù)據(jù)科學(xué)家們來(lái)開(kāi)發(fā)應(yīng)用和算法,從事重大的數(shù)據(jù)科學(xué)項(xiàng)目,但在擁有數(shù)據(jù)科學(xué)家的公司中,他們并不總是有時(shí)間來(lái)做這些事,部分原因是他們要花時(shí)間來(lái)做不那么深度的研究,而這樣的研究不能充分利用他們的技能。
拉波斯還說(shuō)道,在最好的情況下,數(shù)據(jù)科學(xué)家已經(jīng)開(kāi)發(fā)出了工具,能在各方需要答案時(shí)在組織內(nèi)分發(fā)分析。我們不想要的情況是,當(dāng)我們需要答案時(shí),就跑去問(wèn)數(shù)據(jù)專家,然后坐等答案。
問(wèn)題是,即便是最聰明的人開(kāi)發(fā)出最成熟的算法,對(duì)于復(fù)雜問(wèn)題,這些算法也并不總能給出最確定的答案。算法根本不可能考慮到所有選項(xiàng),也不能考慮到極難測(cè)量到的特定因素。
給我找個(gè)好的中場(chǎng)手
棒球就是個(gè)很好的例子,理論上兩個(gè)各方面都相似的棒球選手,各自的比賽表現(xiàn)可能差別很大。數(shù)據(jù)專家們會(huì)告訴你,他們經(jīng)過(guò)多年研究開(kāi)發(fā)的 Sabermetrics 算法將提供挑選選手的所有信息,幫助你找到適合某個(gè)角色的好棒球選手。他們還開(kāi)發(fā)出了諸如 替換勝率 (WinsAbove Replacement) 的算法,FanGraphs 對(duì)這一算法的描述是:“如果這名選手受傷,其球隊(duì)不得不用次級(jí)棒球聯(lián)賽球員或(表現(xiàn)不佳)的選手來(lái)替換,這支球隊(duì)會(huì)丟多少分?”他們使用一系列復(fù)雜的指標(biāo)來(lái)衡量更換球員導(dǎo)致的勝率差異。
無(wú)疑,這些成熟的指標(biāo)能更精確地幫助計(jì)算選手的價(jià)值,但它測(cè)量不到所有東西,比如在壓力下的表現(xiàn),練習(xí)的勤奮程度,是哪種隊(duì)長(zhǎng)以及與隊(duì)友相處得有多好。這些因素都很重要,也都要難量化得多。
純統(tǒng)計(jì)測(cè)量的信徒會(huì)告訴你,一切皆可測(cè)量。大部分情況的確如此,但我很多時(shí)候也看到,理論上各方面都相似的棒球選手,卻未能像前任選手一樣扮演好某一角色,盡管他們的數(shù)據(jù)相似度很高。
將這一情況應(yīng)用到企業(yè)中,人力資源專家在一個(gè)開(kāi)放的程序員職位上可能會(huì)碰到類似的問(wèn)題。申請(qǐng)這份工作的兩個(gè)程序員可能擁有相似的技能,但一個(gè)擁有與人打交道的能力,可以和其他員工很好地進(jìn)行合作,而另一個(gè)人的溝通能力很差。這方面可不會(huì)在簡(jiǎn)歷上體現(xiàn)出來(lái)。即便擁有大量數(shù)據(jù),也很難考慮到所有可能的結(jié)果,尤其是涉及到人時(shí)。
想想醫(yī)療診斷的細(xì)微差別
好醫(yī)生都會(huì)告訴你,哪怕兩個(gè)病人癥狀相同,也可能要根據(jù)年齡、體重、其他健康問(wèn)題以及因素來(lái)采取不同的治療手段。
想想在醫(yī)療中使用 IBM Watson 智能分析平臺(tái)的情形。當(dāng)我最近對(duì)一位朋友談起,一些醫(yī)生正使用 Watson 來(lái)幫助診斷和作出治療決策,他生氣了。他不想讓一臺(tái)機(jī)器來(lái)決定自己的治療手段。這是很正當(dāng)?shù)膿?dān)憂,但在我所說(shuō)的情況中,Watson 并沒(méi)有給出醫(yī)生會(huì)盲從的答案,而是基于已有跡象、病人信息、癥狀及當(dāng)前研究提供一些治療選項(xiàng)。
正如我指出的,忙碌的醫(yī)生不可能一邊工作一邊跟蹤自身領(lǐng)域的所有研究。因?yàn)橄嚓P(guān)研究太多了(這是好事)。這也是 Watson 發(fā)揮作用的地方。Watson 能夠以比人快得多的速度快速過(guò)濾最近的研究,但仍然需要醫(yī)生來(lái)理解病人的細(xì)微差別,從而確定治療方向。我將這一過(guò)程稱為科學(xué)中的藝術(shù)。知識(shí)只能帶你到這么遠(yuǎn),最終的決定權(quán)依然在醫(yī)生而不是機(jī)器手中。
企業(yè)很可能會(huì)面臨類似的不確定結(jié)果,必須有人介入,運(yùn)用自己的知識(shí),在數(shù)據(jù)的幫助下做出選擇。
前進(jìn)的方向?
有時(shí)候機(jī)器能發(fā)現(xiàn)人需要數(shù)年時(shí)間才能弄懂的答案和洞見(jiàn)。比如,貝克指出,大數(shù)據(jù)幫助我們發(fā)現(xiàn)了有關(guān)癌癥等疾病的答案,涉及的因素從未有人類研究員考慮過(guò)。“如果大數(shù)據(jù)沒(méi)有發(fā)現(xiàn)這一信息,我們或許永遠(yuǎn)也不會(huì)發(fā)現(xiàn)合適的療法(或者至少要過(guò)很多年)。我的觀點(diǎn)是,大數(shù)據(jù)可以非常精確”,她對(duì)我表示道。
而且,她相信機(jī)器學(xué)習(xí)會(huì)在不遠(yuǎn)的將來(lái)發(fā)展得足夠成熟,屆時(shí)機(jī)器或許會(huì)為我們作更多決策,因?yàn)槲覀兊拇竽X無(wú)法同時(shí)處理所有信息。
她說(shuō)的也許沒(méi)錯(cuò),但就現(xiàn)在來(lái)說(shuō),收集和處理數(shù)據(jù)的能力已經(jīng)走在了理解數(shù)據(jù)含義的前面。正如貝克提到的,預(yù)測(cè)性分析一直在提高,有時(shí)候數(shù)據(jù)會(huì)直接指向答案,但這仍然是個(gè)復(fù)雜的人機(jī)互助過(guò)程。即便技術(shù)大步向前,人與機(jī)器如何在一起協(xié)作也依然處于探索中。
除非我們找到平衡點(diǎn),或者在整個(gè)過(guò)程得益于機(jī)器出現(xiàn)大幅進(jìn)展之前,我們都要面臨大智慧鴻溝,這將需要一些時(shí)間和技術(shù)進(jìn)步來(lái)填補(bǔ)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03