
企業(yè)應(yīng)該如何在大數(shù)據(jù)基礎(chǔ)架構(gòu)方面做出選擇
如果詢問(wèn)十家公司他們?yōu)榱诉\(yùn)行大數(shù)據(jù)負(fù)載需要使用怎樣的基礎(chǔ)架構(gòu),那么可能會(huì)得到十種不同的答案。現(xiàn)在這個(gè)領(lǐng)域當(dāng)中幾乎沒(méi)有可以遵循的原則,甚至沒(méi)有可以參考的最佳實(shí)踐。
不管是從資源還是從專業(yè)性方面來(lái)說(shuō),大數(shù)據(jù)分析已經(jīng)成為基礎(chǔ)架構(gòu)領(lǐng)域當(dāng)中真正的難題。顧名思義,大數(shù)據(jù)分析工具所針對(duì)的數(shù)據(jù)集合,規(guī)模將會(huì)非常龐大,并且需要大量的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源來(lái)滿足性能需求。但是這些大數(shù)據(jù)工具通常是由超大規(guī)模企業(yè)開發(fā)的,這些企業(yè)并不存在普通企業(yè)需要考慮的同等級(jí)安全問(wèn)題和高可用性問(wèn)題,而主流IT企業(yè)還沒(méi)有深入了解這些工具,再加上大數(shù)據(jù)在投資回報(bào)率方面的不確定性,導(dǎo)致只有非常少的企業(yè)愿意在大數(shù)據(jù)方面進(jìn)行投入。
此外,即便對(duì)于曾經(jīng)在Hadoop、Spark和類似產(chǎn)品上運(yùn)行過(guò)大數(shù)據(jù)集群的部分企業(yè)來(lái)說(shuō),也會(huì)在大數(shù)據(jù)基礎(chǔ)架構(gòu)方面遇到技術(shù)和業(yè)務(wù)方面的挑戰(zhàn)。
大數(shù)據(jù)帶來(lái)大問(wèn)題
一家大型遠(yuǎn)程通訊提供商正在構(gòu)建一種新的數(shù)字服務(wù),預(yù)計(jì)在今年年底正式推出,并且準(zhǔn)備使用Hadoop來(lái)分析這種服務(wù)所產(chǎn)生的內(nèi)容、使用情況和收入(廣告服務(wù))數(shù)據(jù)。但是由于這種服務(wù)是全新的,因此很難分析應(yīng)該使用哪種大數(shù)據(jù)基礎(chǔ)架構(gòu),負(fù)責(zé)這個(gè)項(xiàng)目的技術(shù)副總裁表示。
“對(duì)于一個(gè)還沒(méi)有推出的項(xiàng)目來(lái)說(shuō),我們不可能進(jìn)行任何容量規(guī)劃,”他說(shuō)。
確實(shí),現(xiàn)在很多大數(shù)據(jù)項(xiàng)目仍然處于初級(jí)階段?!按蠖鄶?shù)大數(shù)據(jù)項(xiàng)目的性質(zhì)比我們想象的還要低,” 可擴(kuò)展存儲(chǔ)基礎(chǔ)架構(gòu)提供商Coho Data CTO Andrew Warfield表示。
即便企業(yè)還不是十分了解大數(shù)據(jù)技術(shù),但這并不意味著企業(yè)不應(yīng)該在大數(shù)據(jù)方面投入精力?!暗沁\(yùn)行這種技術(shù)可能面臨著很大風(fēng)險(xiǎn),提前認(rèn)識(shí)到這點(diǎn)非常重要,” Warfield說(shuō),他認(rèn)為企業(yè)應(yīng)該提前考慮基礎(chǔ)架構(gòu)方面的因素。
對(duì)于這家遠(yuǎn)程通訊提供商來(lái)說(shuō),他們將會(huì)采用一種漸進(jìn)的方式,使用來(lái)自于BlueData Software的軟件在商用硬件環(huán)境當(dāng)中運(yùn)行大數(shù)據(jù)集群,這樣就能夠從現(xiàn)有的存儲(chǔ)系統(tǒng)上訪問(wèn)數(shù)據(jù)了。
無(wú)處不在的數(shù)據(jù)
如果數(shù)據(jù)來(lái)自于云,那么當(dāng)然可以直接在云中進(jìn)行分析;如果數(shù)據(jù)全部位于本地,那么底層的基礎(chǔ)架構(gòu)也應(yīng)該位于本地。但是如果數(shù)據(jù)分散在不同位置,那么無(wú)疑會(huì)使得基礎(chǔ)架構(gòu)更加復(fù)雜。
遠(yuǎn)程通訊提供商的服務(wù)將會(huì)同時(shí)使用來(lái)自于云和本地的數(shù)據(jù)。對(duì)于任何大數(shù)據(jù)解決方案來(lái)說(shuō),考慮到合規(guī)性、節(jié)省時(shí)間和網(wǎng)絡(luò)帶寬等因素,能夠同時(shí)支持兩種數(shù)據(jù)來(lái)源都是十分重要的?!巴缴a(chǎn)環(huán)境當(dāng)中的數(shù)據(jù)是一件非常困難的事情,”這位副總裁說(shuō),“我們希望將所有的實(shí)例全都指向一個(gè)單一數(shù)據(jù)源?!?/span>
此外,雖然數(shù)據(jù)科學(xué)家想要分析的信息是可用的,但是現(xiàn)在還不能進(jìn)行使用,因?yàn)槠湮挥诖髷?shù)據(jù)計(jì)算工具無(wú)法訪問(wèn)的存儲(chǔ)基礎(chǔ)架構(gòu)當(dāng)中,Warfield說(shuō)。一種解決方案是存儲(chǔ)硬件使用Hadoop Distributed File System或者RESTful API這樣的協(xié)議公開這些數(shù)據(jù)。
注意延遲
對(duì)于特性類型的大數(shù)據(jù)分析來(lái)說(shuō),將數(shù)據(jù)從存儲(chǔ)陣列移動(dòng)到計(jì)算環(huán)境所花費(fèi)的時(shí)間將會(huì)對(duì)性能造成嚴(yán)重影響。但是如果不將數(shù)據(jù)跨越整個(gè)網(wǎng)絡(luò)移動(dòng)到計(jì)算環(huán)境當(dāng)中,而是將應(yīng)用程序移動(dòng)到數(shù)據(jù)附近以降低延遲,將會(huì)怎樣呢?
將計(jì)算環(huán)境移動(dòng)到數(shù)據(jù)附近并不是一種全新的概念,但是現(xiàn)在出現(xiàn)了一種前所未有的實(shí)現(xiàn)方式:Docker。比如Coho Data和Intel通過(guò)合作證明了這種概念的有效性,在一個(gè)大型金融服務(wù)公司當(dāng)中,使用Docker格式封裝計(jì)算節(jié)點(diǎn),之后在上面直接運(yùn)行Hadoop負(fù)載。
在存儲(chǔ)陣列上直接運(yùn)行Docker容器,這樣做的意義在于直接對(duì)附近的數(shù)據(jù)進(jìn)行分析,而不再需要跨網(wǎng)絡(luò)移動(dòng)數(shù)據(jù),同時(shí)利用任何可用的計(jì)算資源?!跋啾扔谄渌鎯?chǔ)平臺(tái)來(lái)說(shuō),大數(shù)據(jù)平臺(tái)的CPU使用率通常會(huì)很高,” Warfield說(shuō)?!案螞r如果你將閃存加入其中,那么問(wèn)題就會(huì)變成‘我該如何從這種資源當(dāng)中獲得更多價(jià)值?’”
直接在存儲(chǔ)陣列當(dāng)中運(yùn)行容器化應(yīng)用程序是一件非常有趣的事情,但是需要提前對(duì)負(fù)載進(jìn)行認(rèn)真評(píng)估,以確保其能夠很好地適應(yīng)當(dāng)前環(huán)境,為建筑行業(yè)提供文檔管理服務(wù)的Signature Tech Studios公司副總裁Bubba Hines說(shuō)。這種服務(wù)基于Amazon Web Services,使用來(lái)自于Zadara Storage的存儲(chǔ)服務(wù)。這家公司最近開始評(píng)估新的Zadara Container Service,其中容器化應(yīng)用程序運(yùn)行在存儲(chǔ)陣列上,可以直接訪問(wèn)本地磁盤。根據(jù)Hines的想法,現(xiàn)在有幾種可能的使用情況:在存儲(chǔ)陣列上運(yùn)行其災(zāi)難恢復(fù)軟件的容器版本來(lái)持續(xù)監(jiān)控用戶數(shù)據(jù)和工作方面的變化,更改或者驗(yàn)證主要存儲(chǔ)數(shù)據(jù)。
但是如果使用Zadara Container Service處理全部數(shù)據(jù)將沒(méi)有什么意義。Signature Tech Studio的系統(tǒng)正在按照計(jì)劃執(zhí)行數(shù)據(jù)轉(zhuǎn)換,并且已經(jīng)實(shí)現(xiàn)大規(guī)模容器化了。但是“我們可能不會(huì)將所有Docker容器移動(dòng)到Zadara容器服務(wù)當(dāng)中,因?yàn)閺捏w積和規(guī)模方面考慮這樣做并沒(méi)有意義,”Hines說(shuō)?!拔覀儽仨殞ふ夷軌蛘嬲龔慕档脱舆t當(dāng)中獲利的負(fù)載?!?/span>
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無(wú)外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫(kù)的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場(chǎng)景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫(kù)操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問(wèn)題時(shí)有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08