
部署大數(shù)據(jù)業(yè)務(wù)七步走
對于大數(shù)據(jù),有三個重要的事實。首先,它并不是新趨勢。亞馬遜、微軟和谷歌自上世紀(jì)90年代就開始進(jìn)行大數(shù)據(jù)工作。事實上,幾十年來,很多公司都一直在挖掘數(shù)據(jù)。可能由于當(dāng)時只有資金雄厚的大型公司才能夠進(jìn)行大數(shù)據(jù)研究,但大數(shù)據(jù)確實早已存在?,F(xiàn)在,基于廉價的計算和存儲能力以及新工具和技術(shù),幾乎每個人都可以使用高級數(shù)據(jù)挖掘技術(shù)和算法了。
很多人認(rèn)為大數(shù)據(jù)只是商業(yè)智能(BI)的新名稱,雖然這兩者有相似之處,但大數(shù)據(jù)超出了BI的范疇。
第二個事實:“大”是相對的。現(xiàn)在各行業(yè)各組織確實正面對創(chuàng)紀(jì)錄水平的數(shù)據(jù)增長。據(jù)IDC稱,我們每秒創(chuàng)造超過58 TB數(shù)據(jù),到2020年,將擁有超過35ZB的存儲數(shù)據(jù)。然而,大數(shù)據(jù)并不一定是巨大的,大數(shù)據(jù)并不在于其規(guī)模,而在于你需要如何處理它。擁有100 TB的小公司可能也存在大數(shù)據(jù)問題,因為他們需要提取、分析數(shù)據(jù),并作出決策。
第三,大數(shù)據(jù)處理中使用的數(shù)據(jù)的定義是廣泛的,它可以包含結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。對于一些公司來說,最重要的是大數(shù)據(jù)的元數(shù)據(jù),或者關(guān)于數(shù)據(jù)的數(shù)據(jù)。
麥肯錫將大數(shù)據(jù)定義為“其規(guī)模超出傳統(tǒng)數(shù)據(jù)庫軟件的捕捉、存儲、管理和分析能力的數(shù)據(jù)集”,筆者補(bǔ)充了這一點:“這些數(shù)據(jù)集需要大量運行在數(shù)百甚至數(shù)千臺服務(wù)器(云)的并行軟件(系統(tǒng))來處理?!?br />
以下是大數(shù)據(jù)成功的7個步驟:
第1步:承認(rèn)存在問題。 這往往是最難的一步。10年前,我們拒絕承認(rèn)我們的網(wǎng)絡(luò)已不再受防火墻和代理服務(wù)器設(shè)置的保護(hù),而我們不得不為員工遠(yuǎn)程訪問開放基礎(chǔ)設(shè)施并擁抱互聯(lián)網(wǎng)。對于大數(shù)據(jù),IT領(lǐng)導(dǎo)者需要評估其數(shù)據(jù)情況:
● 你的數(shù)據(jù)集讓你不堪重負(fù)嗎?
● 你不知道所有數(shù)據(jù)的位置?
● 你(或者企業(yè)領(lǐng)導(dǎo)者)沒有從你的數(shù)據(jù)中得到所需的信息?
● 企業(yè)領(lǐng)導(dǎo)沒有基于數(shù)據(jù)來做決策?
● 有可能提高IT在企業(yè)政策和戰(zhàn)略決策中的相關(guān)性嗎?
如果你像大多數(shù)公司一樣,部分或者所有這些問題的答案都是肯定的,那么是時候控制你的數(shù)據(jù),并從中挖掘出情報以提供給領(lǐng)導(dǎo)層做決定。
第2步:認(rèn)識到大數(shù)據(jù)帶來的大機(jī)會。 我們總是被告知要緊密聯(lián)系業(yè)務(wù),“業(yè)務(wù)技術(shù)”這一說法已存在多年,但我們總是很難看到最新的軟件和流程如何直接影響收入或者全球經(jīng)濟(jì)增長。而大數(shù)據(jù)卻可以。為什么?因為信息就是力量,企業(yè)領(lǐng)導(dǎo)需要數(shù)據(jù)中挖掘出的信息來幫助企業(yè)競爭和發(fā)展。員工、客戶和市場產(chǎn)生的大量數(shù)據(jù)讓整個企業(yè)(從銷售到營銷部門)都不堪重負(fù)。而大數(shù)據(jù)能夠為你提供簡潔且實時的價值信息,幫助增加收入。[page]
第3步:制定大數(shù)據(jù)計劃。 與任何計劃一樣,你開始就應(yīng)該想到結(jié)果。企業(yè)需要知道什么?他們需要回答的問題是什么?在你開始使用Hadoop前,解決這些問題,并簽訂聯(lián)合協(xié)議。然后按照下列步驟操作(每個步驟可能需要數(shù)周或者數(shù)月):
1、隔離屬于“大數(shù)據(jù)”的部分?jǐn)?shù)據(jù)
2、分離“產(chǎn)品”大數(shù)據(jù)和“公司”大數(shù)據(jù),例如人力資源分析需要的員工數(shù)據(jù)和電子商務(wù)平臺的客戶或產(chǎn)品搜索數(shù)據(jù)需要分離
3、認(rèn)識和了解你的數(shù)據(jù)的波峰和波谷
4、了解哪些技術(shù)允許實時(或接近實時)大數(shù)據(jù)處理
5、確定關(guān)鍵的解決方案/供應(yīng)商
6、從小事做起,評估與發(fā)展-先做一個項目,讓你可以快速展示成果和ROI,然后轉(zhuǎn)移到下一個大數(shù)據(jù)項目
7、繼續(xù)分析、調(diào)整和輸入-大數(shù)據(jù)是靈活的,需要隨著數(shù)據(jù)、情報和企業(yè)要求的變化進(jìn)行調(diào)整
第4步:利用分布式系統(tǒng)。大數(shù)據(jù)要求我們轉(zhuǎn)換對系統(tǒng)和基礎(chǔ)設(shè)施的想法。正如虛擬化從根本上改變了我們利用服務(wù)器和應(yīng)用程序的方式,分布式系統(tǒng)和處理使我們能夠管理大數(shù)據(jù),因為分布式架構(gòu)允許我們將問題分解成很多小任務(wù),然后將這些任務(wù)分配到多個系統(tǒng)。好消息是,我們擁有了越來越多的攻擊和架構(gòu)框架可以利用,包括Cassandra、Hadoop、VMware、Red Hat等。分布式系統(tǒng)并不新鮮,但大數(shù)據(jù)將其帶入到全新的水平,分布式方法包括:
● 多租戶架構(gòu)
● 分布式數(shù)據(jù)庫
● 虛擬化
● 多線程
● 多核心CPU
● 并行處理
● 分布式文件系統(tǒng)
● 分布式負(fù)載平衡
● RAID算法
第5步:從分布式到分散式。 對大多數(shù)公司來說,這是真正的范式轉(zhuǎn)變,這也是大數(shù)據(jù)和云計算結(jié)合的地方,鑒于互聯(lián)網(wǎng)是世界上最大的分布式和分散的系統(tǒng),我們應(yīng)該更加充分地利用互聯(lián)網(wǎng)來實現(xiàn)大數(shù)據(jù)。
我們很喜歡分布式實例或者計算處理,但分散式往往有種失去控制的感覺。這有必要嗎?對于大數(shù)據(jù),采用分散式做法是必要的,因為由于過度和孤立的服務(wù),所有未使用的實例和存儲容量都將浪費。
更重要的是,單靠分布式組件無法讓我們跟上數(shù)據(jù)增長的步伐。IDC估計,到2020年,產(chǎn)生的數(shù)據(jù)和數(shù)據(jù)中心容量之間的差距將達(dá)到60%.
然而,部分原因在于我們沒有充分利用我們已經(jīng)擁有的容量。Gartner估計,大多數(shù)計算機(jī)、服務(wù)器和網(wǎng)絡(luò)只運行了30%的容量以準(zhǔn)備好應(yīng)對峰值或者未來增長。雖然我們可能永遠(yuǎn)不會以90%或者100%的容量運行,但我們可以更好地利用現(xiàn)有的容量,節(jié)省數(shù)百萬美元,提高現(xiàn)有基礎(chǔ)設(shè)施的總體擁有成本(TCO)。
分散式方法的主要特點:
● 沒有中央瓶頸
● 大量的能力
● 有機(jī)的,需求推動容量增長
● 充分利用現(xiàn)有的基礎(chǔ)設(shè)施和邊緣設(shè)備
● 信息共享
● 假定每個人/每一個節(jié)點是“不可信任的”
● 地理分布:
○ 所有權(quán)和參與
○ 成本
○ 管理開銷
○ 風(fēng)險
分散式方法存在很多很好的例子,其中最知名的就是開源運動。
分散式方法還有兩個新例子,筆者定義為分散式云系統(tǒng):CloudStack和OpenStack.我們?nèi)匀晃挥诜稚⑹椒椒ǖ脑缙陔A段,但隨著數(shù)據(jù)繼續(xù)增長,這將是未來幾年的重要趨勢。[page]
第6步:雇傭/培養(yǎng)合適的人才和技能。 云計算并不意味著更少的IT工作,但云計算和大數(shù)據(jù)的出現(xiàn)卻是意味著我們需要發(fā)展我們的技能和培養(yǎng)人才。在大數(shù)據(jù)世界,數(shù)據(jù)庫管理員等現(xiàn)有崗位變得更加重要。你還需要培養(yǎng)和招聘的其他職位包括:
● 數(shù)據(jù)科學(xué)家
● 架構(gòu)師
● 隨機(jī)理論師(算法)
● 業(yè)務(wù)分析師
● UX/UI專家
其中一些職位似乎是合乎邏輯的,但對于業(yè)務(wù)分析師和UX/UI專家,傳統(tǒng)上不屬于IT部門,你可以將這些人員安排在生產(chǎn)管理中,而在大數(shù)據(jù)解決方案中,他們需要攜手開發(fā)和運營團(tuán)隊。這是因為你不能直接將大數(shù)據(jù)信息交給業(yè)務(wù)方面,使用圖表和易于理解的分析是關(guān)鍵。
此外,如果你還沒有整合開發(fā)/運營團(tuán)隊來更好地管理云計算部署,那么現(xiàn)在可以這樣做了。這兩個團(tuán)隊必須攜手合作來實現(xiàn)任何云計算或者大數(shù)據(jù)戰(zhàn)略。
第7步:通過大數(shù)據(jù)來利用數(shù)據(jù)。正如IT職位可能開始更傾向于業(yè)務(wù),IT需要改變其度量的方式。你的團(tuán)隊中的每個人都應(yīng)該熱衷于追蹤和記錄關(guān)鍵性能指標(biāo)(KPI),這些應(yīng)該符合業(yè)務(wù)指標(biāo),而不只是及時發(fā)布和交付高質(zhì)量代碼。技術(shù)團(tuán)隊的每個人都應(yīng)該有明確的指標(biāo),并努力尋找新方法來提高指標(biāo)結(jié)果。
大數(shù)據(jù)可能不是我們所有人想要的答案,但它確實給IT創(chuàng)造了幫助企業(yè)提高收入的機(jī)會。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03