
大數(shù)據(jù)項目為何失敗
在大數(shù)據(jù)方面,關(guān)于內(nèi)存計算以及開源Hadoop等,寶立明也發(fā)表過很多獨特的見解。在廠商的發(fā)言人當(dāng)中,寶立明也是為數(shù)不多能夠?qū)⒓夹g(shù)深入淺出解釋清楚的人之一。他近期在DataInformed網(wǎng)站上發(fā)表了一篇關(guān)于大數(shù)據(jù)項目建設(shè)的文章,其中探討了大數(shù)據(jù)在企業(yè)中為何失敗的原因,并為企業(yè)建設(shè)大數(shù)據(jù)項目給出了值得關(guān)注的幾點建議。TechTarget數(shù)據(jù)庫網(wǎng)站在此進(jìn)行了編譯,希望能夠幫助您更好地從技術(shù)和業(yè)務(wù)層面理解大數(shù)據(jù)。
在接觸大數(shù)據(jù)的時候,業(yè)界往往會提到三個V的概念,即數(shù)量、種類和速度(volume, variety, velocity)。然而,我們對另外一個V,Value即價值的關(guān)注顯然是不夠的。也正是出于這個原因,有很多倉促上馬的大數(shù)據(jù)項目沒有能夠抓住這個新興的商業(yè)機遇,沒能達(dá)到預(yù)期的投資回報率從而導(dǎo)致失敗。
大數(shù)據(jù)項目失敗的原因主要集中在以下幾點:
1、太過關(guān)注技術(shù)層面,而忽視了商業(yè)價值;
2、相關(guān)人員不能訪問到他們需要的數(shù)據(jù);
3、未能達(dá)到企業(yè)級的要求;
4、對項目的總擁有成本(TCO)缺乏成熟的理解,這其中包括人員和IT系統(tǒng)。
目前正在進(jìn)行的很多大數(shù)據(jù)項目或者POC測試,更多地是對新技術(shù)的測試,而并不是商業(yè)價值的挖掘。從Apache網(wǎng)站下載開源軟件,然后對Hadoop測試的確很有意思,但這方面的努力很少能夠?qū)I(yè)務(wù)帶來真正的價值。
向這些項目要價值,企業(yè)必須有至少一名的業(yè)務(wù)人員為項目提供方向性的指導(dǎo)。一開始就把海量數(shù)據(jù)存儲到HDFS或者數(shù)據(jù)庫,然后投入大量的新技術(shù)來對其進(jìn)行分析,這樣的大數(shù)據(jù)項目注定是要失敗的。在缺少業(yè)務(wù)指引的情況下,就不要幻想能夠挖掘出業(yè)務(wù)價值。
業(yè)務(wù)分析師與數(shù)據(jù)科學(xué)家的關(guān)系
從大數(shù)據(jù)中獲取價值的關(guān)鍵,需要具備業(yè)務(wù)知識的員工能夠高效地獲取數(shù)據(jù)并進(jìn)行探索。在一些比較關(guān)注分析的組織當(dāng)中,還誕生了“數(shù)據(jù)科學(xué)家(Data Scientist)”這一職位。與傳統(tǒng)的業(yè)務(wù)分析師不同,數(shù)據(jù)科學(xué)家擁有不同的(更豐富的)知識儲備以及職能。
業(yè)務(wù)分析師通過數(shù)據(jù)來解答業(yè)務(wù)問題,而數(shù)據(jù)科學(xué)家并不專注于解答問題,他們更關(guān)注的是挖掘新問題。通常情況下,一名業(yè)務(wù)分析師會使用專門的、直觀的BI工具來找到問題并給出結(jié)果。
數(shù)據(jù)科學(xué)家則更傾向于使用數(shù)據(jù)可視化和數(shù)據(jù)挖掘工具來找到數(shù)據(jù)的相關(guān)性以及模式,而這些數(shù)據(jù)在之前是沒有很好地組織在一起的。在判定數(shù)據(jù)的相關(guān)性和模式之后,它們就可以轉(zhuǎn)化為新的業(yè)務(wù)問題,提交給業(yè)務(wù)分析師來進(jìn)行解答。
數(shù)據(jù)科學(xué)家成功的一個關(guān)鍵因素就是,為他們提供細(xì)節(jié)數(shù)據(jù)的直接訪問權(quán)。在一個大數(shù)據(jù)環(huán)境下,數(shù)據(jù)類型的多樣性以及非關(guān)系型格式為傳統(tǒng)分析工具提出了很大的挑戰(zhàn)。生成ANSI SQL的工具不能夠高效率地處理大數(shù)據(jù)內(nèi)容,因為這些大數(shù)據(jù)往往是鍵值對(Web日志數(shù)據(jù))、圖形(社交網(wǎng)絡(luò))、文本以及富媒體(音頻、視頻)文件等。
包括MapReduce編程框架在內(nèi)的新技術(shù),為數(shù)據(jù)的訪問提供了新方式,同時能夠很好地解決上述問題。然而對于數(shù)據(jù)科學(xué)家來說,使用這些所謂的“NoSQL”技術(shù)來進(jìn)行高級分析是比較費勁的。這時就需要一個相關(guān)的技術(shù)專家對數(shù)據(jù)訪問進(jìn)行控制,他們的角色類似于中間人。
大數(shù)據(jù)發(fā)現(xiàn)
我曾經(jīng)聽一名在大型銀行工作的數(shù)據(jù)科學(xué)家抱怨:“Hadoop在低成本存儲海量數(shù)據(jù)方面的確是非常好的技術(shù),但問題是只有那些把數(shù)據(jù)存儲到HDFS里人才能夠把它們弄出來?!?br />
為了解決這一難題,大數(shù)據(jù)發(fā)現(xiàn)(big data discovery)平臺將是整個生態(tài)系統(tǒng)當(dāng)中非常關(guān)鍵的一環(huán),它能夠為數(shù)據(jù)科學(xué)家提供對大數(shù)據(jù)內(nèi)容的直接訪問。
為了實現(xiàn)這一目標(biāo),就必須有一個數(shù)據(jù)訪問接口,能夠提供比MapReduce、Java或者C++更高級別的抽象。這就需要對MapReduce與傳統(tǒng)SQL進(jìn)行結(jié)合,從而得到一個混合模型。盡管在開源社區(qū)有很多類似的工具,比如Pig、Hive,但這些項目還不能為數(shù)據(jù)科學(xué)家提供高效的、低成本的解決方案。
因此,SQL與NoSQL可以結(jié)合成為“Not Only SQL”,在解決方案中添加這樣的組合變得越來越流行。大多數(shù)商業(yè)關(guān)系型數(shù)據(jù)庫廠商都已經(jīng)提供了類似的功能。
大數(shù)據(jù)項目中另外一個常見的錯誤就是陷入所謂的“銀彈”陷阱。新技術(shù)往往被視作解決所有問題的“萬能藥”,一段時間內(nèi),Hadoop已經(jīng)成為了大數(shù)據(jù)的代名詞,能應(yīng)對所有的分析挑戰(zhàn)。當(dāng)然,現(xiàn)實中永遠(yuǎn)不會出現(xiàn)一種技術(shù)解決所有問題的情況。大數(shù)據(jù)的成功需要使用正確的工具解決特定的問題。
三平臺策略:數(shù)據(jù)歸檔、數(shù)據(jù)發(fā)現(xiàn)、生產(chǎn)環(huán)境分析
包括LinkedIn、eBay在內(nèi)的分析密集型企業(yè),他們解決大數(shù)據(jù)的方法通常是使用三個平臺策略,即一個數(shù)據(jù)歸檔平臺、一個數(shù)據(jù)發(fā)現(xiàn)平臺和一個生產(chǎn)環(huán)境分析平臺。
由于擴(kuò)展性、快速數(shù)據(jù)加載以及低成本等特性,開源Hadoop一直受到了數(shù)據(jù)歸檔平臺的青睞。通過這個平臺,數(shù)據(jù)可以被存儲和調(diào)配,并以鍵值對的方式進(jìn)行原始格式存儲。然而,將Hadoop作為分析平臺的基礎(chǔ)是極難操縱的,需要大量相關(guān)技術(shù)人員介入。
對于企業(yè)級應(yīng)用來說,我們就需要考慮更多的問題,比如可用性、可管理性以及安全性等。出于這一考慮,需要數(shù)據(jù)發(fā)現(xiàn)平臺填補Hadoop與生產(chǎn)環(huán)境中的傳統(tǒng)數(shù)據(jù)庫平臺之間的“鴻溝”。一個健壯的數(shù)據(jù)發(fā)現(xiàn)平臺將能夠填補上述Hadoop的功能缺陷,同時讓數(shù)據(jù)科學(xué)家能夠在SQL或者NoSQL環(huán)境下進(jìn)行工作(針對關(guān)系型數(shù)據(jù)或非關(guān)系型數(shù)據(jù))。
數(shù)據(jù)發(fā)現(xiàn)平臺優(yōu)化用來提供給小部分?jǐn)?shù)據(jù)科學(xué)家進(jìn)行數(shù)據(jù)試驗的設(shè)計與執(zhí)行。數(shù)據(jù)將以未經(jīng)處理的格式從Hadoop歸檔平臺導(dǎo)出,以快速地提供給數(shù)據(jù)科學(xué)家。如果從試驗中未能發(fā)現(xiàn)價值,這部分?jǐn)?shù)據(jù)可以簡單地丟棄。然后通過發(fā)現(xiàn)平臺,新的數(shù)據(jù)再進(jìn)來。如果數(shù)據(jù)中發(fā)現(xiàn)價值,就把這些數(shù)據(jù)提交到企業(yè)數(shù)據(jù)倉庫平臺當(dāng)中。企業(yè)數(shù)據(jù)倉庫平臺中的數(shù)據(jù)是經(jīng)過驗證、可以審計并可以重復(fù)利用的,用來進(jìn)行生產(chǎn)環(huán)境分析。
整個數(shù)據(jù)流動的過程,我將其稱之為統(tǒng)一數(shù)據(jù)架構(gòu),旨在利用手頭上正確的工具來解決相應(yīng)的問題。企業(yè)可以使用Hadoop作為數(shù)據(jù)歸檔平臺。數(shù)據(jù)發(fā)現(xiàn)平臺能夠提供SQL之外的分析能力,同時提供了數(shù)據(jù)庫功能,并對性能、易用性和安全性進(jìn)行了優(yōu)化,適合數(shù)據(jù)科學(xué)家使用。不使用ETL技術(shù),通過后期綁定數(shù)據(jù)發(fā)現(xiàn)平臺,為數(shù)據(jù)科學(xué)家提供足夠的靈活性。與此同時,生產(chǎn)環(huán)境分析平臺有企業(yè)數(shù)據(jù)倉庫組成,其中的數(shù)據(jù)主要是通過ETL工具加載進(jìn)來的。
當(dāng)然,并不是所有的企業(yè)都需要上述的三個平臺。舉個例子, 如果數(shù)據(jù)量還不足夠大的話,那么不建議一上來就部署Hadoop平臺。相似地,數(shù)據(jù)發(fā)現(xiàn)平臺和生產(chǎn)環(huán)境分析平臺可以整合在一起,降低整體架構(gòu)的復(fù)雜性。
ROI與TCO
一個大數(shù)據(jù)項目要成功,就必須提供一個良好的投資回報率。然而,成功的必要投資往往被誤解。投資并不僅僅是在技術(shù)層面的,還包括具備相應(yīng)能力的人員投資。舉個例子,Hadoop的部署往往被誤認(rèn)為是免費的,因為它是開源的,沒有許可證費用。然而在使用“免費”軟件的時候,企業(yè)就會忽視對人才的投資,只把軟件安裝在服務(wù)器集群當(dāng)中是遠(yuǎn)遠(yuǎn)不夠的。
從這個角度看,Hadoop可以被視為免費的寵物。領(lǐng)養(yǎng)的費用是零,但喂養(yǎng)的費用絕對就不是零了。企業(yè)必須重視數(shù)據(jù)科學(xué)家以及運維人員的投資,這樣才能讓系統(tǒng)正常運轉(zhuǎn),并得到業(yè)務(wù)價值回報。
另外,總擁有成本是最重要的,而不僅僅是購置成本。記住這一點對企業(yè)選擇正確的技術(shù)是很關(guān)鍵的??偝杀緝r值的優(yōu)化涉及到投資正確的技術(shù)以及技能組合,需要理解針對特定的工作負(fù)載哪些技術(shù)才是最適合的,并把整個系統(tǒng)結(jié)合起來。
相比于對技術(shù)過于崇拜的企業(yè),從價值層面打通IT與業(yè)務(wù)部門的企業(yè)更容易獲得大數(shù)據(jù)項目的成功。因此,對正確的技術(shù)與技能組合的投資是非常關(guān)鍵的,將它們有機結(jié)合起來是優(yōu)化總成本價值的基礎(chǔ),并能讓大數(shù)據(jù)項目真正獲得成功。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03