99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)項目為何失敗
大數(shù)據(jù)項目為何失敗
2018-03-19
收藏

大數(shù)據(jù)項目為何失敗

在大數(shù)據(jù)方面,關(guān)于內(nèi)存計算以及開源Hadoop等,寶立明也發(fā)表過很多獨特的見解。在廠商的發(fā)言人當(dāng)中,寶立明也是為數(shù)不多能夠?qū)⒓夹g(shù)深入淺出解釋清楚的人之一。他近期在DataInformed網(wǎng)站上發(fā)表了一篇關(guān)于大數(shù)據(jù)項目建設(shè)的文章,其中探討了大數(shù)據(jù)在企業(yè)中為何失敗的原因,并為企業(yè)建設(shè)大數(shù)據(jù)項目給出了值得關(guān)注的幾點建議。TechTarget數(shù)據(jù)庫網(wǎng)站在此進(jìn)行了編譯,希望能夠幫助您更好地從技術(shù)和業(yè)務(wù)層面理解大數(shù)據(jù)。
    在接觸大數(shù)據(jù)的時候,業(yè)界往往會提到三個V的概念,即數(shù)量、種類和速度(volume, variety, velocity)。然而,我們對另外一個V,Value即價值的關(guān)注顯然是不夠的。也正是出于這個原因,有很多倉促上馬的大數(shù)據(jù)項目沒有能夠抓住這個新興的商業(yè)機遇,沒能達(dá)到預(yù)期的投資回報率從而導(dǎo)致失敗。
   大數(shù)據(jù)項目失敗的原因主要集中在以下幾點:
    1、太過關(guān)注技術(shù)層面,而忽視了商業(yè)價值;
    2、相關(guān)人員不能訪問到他們需要的數(shù)據(jù);
    3、未能達(dá)到企業(yè)級的要求;
    4、對項目的總擁有成本(TCO)缺乏成熟的理解,這其中包括人員和IT系統(tǒng)。
    目前正在進(jìn)行的很多大數(shù)據(jù)項目或者POC測試,更多地是對新技術(shù)的測試,而并不是商業(yè)價值的挖掘。從Apache網(wǎng)站下載開源軟件,然后對Hadoop測試的確很有意思,但這方面的努力很少能夠?qū)I(yè)務(wù)帶來真正的價值。
    向這些項目要價值,企業(yè)必須有至少一名的業(yè)務(wù)人員為項目提供方向性的指導(dǎo)。一開始就把海量數(shù)據(jù)存儲HDFS或者數(shù)據(jù)庫,然后投入大量的新技術(shù)來對其進(jìn)行分析,這樣的大數(shù)據(jù)項目注定是要失敗的。在缺少業(yè)務(wù)指引的情況下,就不要幻想能夠挖掘出業(yè)務(wù)價值。
   業(yè)務(wù)分析師與數(shù)據(jù)科學(xué)家的關(guān)系
    從大數(shù)據(jù)中獲取價值的關(guān)鍵,需要具備業(yè)務(wù)知識的員工能夠高效地獲取數(shù)據(jù)并進(jìn)行探索。在一些比較關(guān)注分析的組織當(dāng)中,還誕生了“數(shù)據(jù)科學(xué)家(Data Scientist)”這一職位。與傳統(tǒng)的業(yè)務(wù)分析師不同,數(shù)據(jù)科學(xué)家擁有不同的(更豐富的)知識儲備以及職能。
    業(yè)務(wù)分析師通過數(shù)據(jù)來解答業(yè)務(wù)問題,而數(shù)據(jù)科學(xué)家并不專注于解答問題,他們更關(guān)注的是挖掘新問題。通常情況下,一名業(yè)務(wù)分析師會使用專門的、直觀的BI工具來找到問題并給出結(jié)果。
    數(shù)據(jù)科學(xué)家則更傾向于使用數(shù)據(jù)可視化數(shù)據(jù)挖掘工具來找到數(shù)據(jù)的相關(guān)性以及模式,而這些數(shù)據(jù)在之前是沒有很好地組織在一起的。在判定數(shù)據(jù)的相關(guān)性和模式之后,它們就可以轉(zhuǎn)化為新的業(yè)務(wù)問題,提交給業(yè)務(wù)分析師來進(jìn)行解答。
    數(shù)據(jù)科學(xué)家成功的一個關(guān)鍵因素就是,為他們提供細(xì)節(jié)數(shù)據(jù)的直接訪問權(quán)。在一個大數(shù)據(jù)環(huán)境下,數(shù)據(jù)類型的多樣性以及非關(guān)系型格式為傳統(tǒng)分析工具提出了很大的挑戰(zhàn)。生成ANSI SQL的工具不能夠高效率地處理大數(shù)據(jù)內(nèi)容,因為這些大數(shù)據(jù)往往是鍵值對(Web日志數(shù)據(jù))、圖形(社交網(wǎng)絡(luò))、文本以及富媒體(音頻、視頻)文件等。
    包括MapReduce編程框架在內(nèi)的新技術(shù),為數(shù)據(jù)的訪問提供了新方式,同時能夠很好地解決上述問題。然而對于數(shù)據(jù)科學(xué)家來說,使用這些所謂的“NoSQL”技術(shù)來進(jìn)行高級分析是比較費勁的。這時就需要一個相關(guān)的技術(shù)專家對數(shù)據(jù)訪問進(jìn)行控制,他們的角色類似于中間人。
   大數(shù)據(jù)發(fā)現(xiàn)
    我曾經(jīng)聽一名在大型銀行工作的數(shù)據(jù)科學(xué)家抱怨:“Hadoop在低成本存儲海量數(shù)據(jù)方面的確是非常好的技術(shù),但問題是只有那些把數(shù)據(jù)存儲HDFS里人才能夠把它們弄出來?!?br />     為了解決這一難題,大數(shù)據(jù)發(fā)現(xiàn)(big data discovery)平臺將是整個生態(tài)系統(tǒng)當(dāng)中非常關(guān)鍵的一環(huán),它能夠為數(shù)據(jù)科學(xué)家提供對大數(shù)據(jù)內(nèi)容的直接訪問。
    為了實現(xiàn)這一目標(biāo),就必須有一個數(shù)據(jù)訪問接口,能夠提供比MapReduce、Java或者C++更高級別的抽象。這就需要對MapReduce與傳統(tǒng)SQL進(jìn)行結(jié)合,從而得到一個混合模型。盡管在開源社區(qū)有很多類似的工具,比如Pig、Hive,但這些項目還不能為數(shù)據(jù)科學(xué)家提供高效的、低成本的解決方案。
    因此,SQL與NoSQL可以結(jié)合成為“Not Only SQL”,在解決方案中添加這樣的組合變得越來越流行。大多數(shù)商業(yè)關(guān)系型數(shù)據(jù)庫廠商都已經(jīng)提供了類似的功能。
   大數(shù)據(jù)項目中另外一個常見的錯誤就是陷入所謂的“銀彈”陷阱。新技術(shù)往往被視作解決所有問題的“萬能藥”,一段時間內(nèi),Hadoop已經(jīng)成為了大數(shù)據(jù)的代名詞,能應(yīng)對所有的分析挑戰(zhàn)。當(dāng)然,現(xiàn)實中永遠(yuǎn)不會出現(xiàn)一種技術(shù)解決所有問題的情況。大數(shù)據(jù)的成功需要使用正確的工具解決特定的問題。
   三平臺策略:數(shù)據(jù)歸檔、數(shù)據(jù)發(fā)現(xiàn)、生產(chǎn)環(huán)境分析
    包括LinkedIn、eBay在內(nèi)的分析密集型企業(yè),他們解決大數(shù)據(jù)的方法通常是使用三個平臺策略,即一個數(shù)據(jù)歸檔平臺、一個數(shù)據(jù)發(fā)現(xiàn)平臺和一個生產(chǎn)環(huán)境分析平臺。
    由于擴(kuò)展性、快速數(shù)據(jù)加載以及低成本等特性,開源Hadoop一直受到了數(shù)據(jù)歸檔平臺的青睞。通過這個平臺,數(shù)據(jù)可以被存儲和調(diào)配,并以鍵值對的方式進(jìn)行原始格式存儲。然而,將Hadoop作為分析平臺的基礎(chǔ)是極難操縱的,需要大量相關(guān)技術(shù)人員介入。
    對于企業(yè)級應(yīng)用來說,我們就需要考慮更多的問題,比如可用性、可管理性以及安全性等。出于這一考慮,需要數(shù)據(jù)發(fā)現(xiàn)平臺填補Hadoop與生產(chǎn)環(huán)境中的傳統(tǒng)數(shù)據(jù)庫平臺之間的“鴻溝”。一個健壯的數(shù)據(jù)發(fā)現(xiàn)平臺將能夠填補上述Hadoop的功能缺陷,同時讓數(shù)據(jù)科學(xué)家能夠在SQL或者NoSQL環(huán)境下進(jìn)行工作(針對關(guān)系型數(shù)據(jù)或非關(guān)系型數(shù)據(jù))。
    數(shù)據(jù)發(fā)現(xiàn)平臺優(yōu)化用來提供給小部分?jǐn)?shù)據(jù)科學(xué)家進(jìn)行數(shù)據(jù)試驗的設(shè)計與執(zhí)行。數(shù)據(jù)將以未經(jīng)處理的格式從Hadoop歸檔平臺導(dǎo)出,以快速地提供給數(shù)據(jù)科學(xué)家。如果從試驗中未能發(fā)現(xiàn)價值,這部分?jǐn)?shù)據(jù)可以簡單地丟棄。然后通過發(fā)現(xiàn)平臺,新的數(shù)據(jù)再進(jìn)來。如果數(shù)據(jù)中發(fā)現(xiàn)價值,就把這些數(shù)據(jù)提交到企業(yè)數(shù)據(jù)倉庫平臺當(dāng)中。企業(yè)數(shù)據(jù)倉庫平臺中的數(shù)據(jù)是經(jīng)過驗證、可以審計并可以重復(fù)利用的,用來進(jìn)行生產(chǎn)環(huán)境分析。
    整個數(shù)據(jù)流動的過程,我將其稱之為統(tǒng)一數(shù)據(jù)架構(gòu),旨在利用手頭上正確的工具來解決相應(yīng)的問題。企業(yè)可以使用Hadoop作為數(shù)據(jù)歸檔平臺。數(shù)據(jù)發(fā)現(xiàn)平臺能夠提供SQL之外的分析能力,同時提供了數(shù)據(jù)庫功能,并對性能、易用性和安全性進(jìn)行了優(yōu)化,適合數(shù)據(jù)科學(xué)家使用。不使用ETL技術(shù),通過后期綁定數(shù)據(jù)發(fā)現(xiàn)平臺,為數(shù)據(jù)科學(xué)家提供足夠的靈活性。與此同時,生產(chǎn)環(huán)境分析平臺有企業(yè)數(shù)據(jù)倉庫組成,其中的數(shù)據(jù)主要是通過ETL工具加載進(jìn)來的。
    當(dāng)然,并不是所有的企業(yè)都需要上述的三個平臺。舉個例子, 如果數(shù)據(jù)量還不足夠大的話,那么不建議一上來就部署Hadoop平臺。相似地,數(shù)據(jù)發(fā)現(xiàn)平臺和生產(chǎn)環(huán)境分析平臺可以整合在一起,降低整體架構(gòu)的復(fù)雜性。
   ROI與TCO
    一個大數(shù)據(jù)項目要成功,就必須提供一個良好的投資回報率。然而,成功的必要投資往往被誤解。投資并不僅僅是在技術(shù)層面的,還包括具備相應(yīng)能力的人員投資。舉個例子,Hadoop的部署往往被誤認(rèn)為是免費的,因為它是開源的,沒有許可證費用。然而在使用“免費”軟件的時候,企業(yè)就會忽視對人才的投資,只把軟件安裝在服務(wù)器集群當(dāng)中是遠(yuǎn)遠(yuǎn)不夠的。
    從這個角度看,Hadoop可以被視為免費的寵物。領(lǐng)養(yǎng)的費用是零,但喂養(yǎng)的費用絕對就不是零了。企業(yè)必須重視數(shù)據(jù)科學(xué)家以及運維人員的投資,這樣才能讓系統(tǒng)正常運轉(zhuǎn),并得到業(yè)務(wù)價值回報。
    另外,總擁有成本是最重要的,而不僅僅是購置成本。記住這一點對企業(yè)選擇正確的技術(shù)是很關(guān)鍵的??偝杀緝r值的優(yōu)化涉及到投資正確的技術(shù)以及技能組合,需要理解針對特定的工作負(fù)載哪些技術(shù)才是最適合的,并把整個系統(tǒng)結(jié)合起來。
    相比于對技術(shù)過于崇拜的企業(yè),從價值層面打通IT與業(yè)務(wù)部門的企業(yè)更容易獲得大數(shù)據(jù)項目的成功。因此,對正確的技術(shù)與技能組合的投資是非常關(guān)鍵的,將它們有機結(jié)合起來是優(yōu)化總成本價值的基礎(chǔ),并能讓大數(shù)據(jù)項目真正獲得成功。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }