
部署大數(shù)據(jù)業(yè)務七步走
對于大數(shù)據(jù),有三個重要的事實。首先,它并不是新趨勢。亞馬遜、微軟和谷歌自上世紀90年代就開始進行大數(shù)據(jù)工作。事實上,幾十年來,很多公司都一直在挖掘數(shù)據(jù)??赡苡捎诋敃r只有資金雄厚的大型公司才能夠進行大數(shù)據(jù)研究,但大數(shù)據(jù)確實早已存在?,F(xiàn)在,基于廉價的計算和存儲能力以及新工具和技術,幾乎每個人都可以使用高級數(shù)據(jù)挖掘技術和算法了。
很多人認為大數(shù)據(jù)只是商業(yè)智能(BI)的新名稱,雖然這兩者有相似之處,但大數(shù)據(jù)超出了BI的范疇。
第二個事實:“大”是相對的?,F(xiàn)在各行業(yè)各組織確實正面對創(chuàng)紀錄水平的數(shù)據(jù)增長。據(jù)IDC稱,我們每秒創(chuàng)造超過58 TB數(shù)據(jù),到2020年,將擁有超過35ZB的存儲數(shù)據(jù)。然而,大數(shù)據(jù)并不一定是巨大的,大數(shù)據(jù)并不在于其規(guī)模,而在于你需要如何處理它。擁有100 TB的小公司可能也存在大數(shù)據(jù)問題,因為他們需要提取、分析數(shù)據(jù),并作出決策。
第三,大數(shù)據(jù)處理中使用的數(shù)據(jù)的定義是廣泛的,它可以包含結構化和非結構化數(shù)據(jù)。對于一些公司來說,最重要的是大數(shù)據(jù)的元數(shù)據(jù),或者關于數(shù)據(jù)的數(shù)據(jù)。
麥肯錫將大數(shù)據(jù)定義為“其規(guī)模超出傳統(tǒng)數(shù)據(jù)庫軟件的捕捉、存儲、管理和分析能力的數(shù)據(jù)集”,筆者補充了這一點:“這些數(shù)據(jù)集需要大量運行在數(shù)百甚至數(shù)千臺服務器(云)的并行軟件(系統(tǒng))來處理?!?br />
以下是大數(shù)據(jù)成功的7個步驟:
第1步:承認存在問題。 這往往是最難的一步。10年前,我們拒絕承認我們的網(wǎng)絡已不再受防火墻和代理服務器設置的保護,而我們不得不為員工遠程訪問開放基礎設施并擁抱互聯(lián)網(wǎng)。對于大數(shù)據(jù),IT領導者需要評估其數(shù)據(jù)情況:
● 你的數(shù)據(jù)集讓你不堪重負嗎?
● 你不知道所有數(shù)據(jù)的位置?
● 你(或者企業(yè)領導者)沒有從你的數(shù)據(jù)中得到所需的信息?
● 企業(yè)領導沒有基于數(shù)據(jù)來做決策?
● 有可能提高IT在企業(yè)政策和戰(zhàn)略決策中的相關性嗎?
如果你像大多數(shù)公司一樣,部分或者所有這些問題的答案都是肯定的,那么是時候控制你的數(shù)據(jù),并從中挖掘出情報以提供給領導層做決定。
第2步:認識到大數(shù)據(jù)帶來的大機會。 我們總是被告知要緊密聯(lián)系業(yè)務,“業(yè)務技術”這一說法已存在多年,但我們總是很難看到最新的軟件和流程如何直接影響收入或者全球經(jīng)濟增長。而大數(shù)據(jù)卻可以。為什么?因為信息就是力量,企業(yè)領導需要數(shù)據(jù)中挖掘出的信息來幫助企業(yè)競爭和發(fā)展。員工、客戶和市場產(chǎn)生的大量數(shù)據(jù)讓整個企業(yè)(從銷售到營銷部門)都不堪重負。而大數(shù)據(jù)能夠為你提供簡潔且實時的價值信息,幫助增加收入。[page]
第3步:制定大數(shù)據(jù)計劃。 與任何計劃一樣,你開始就應該想到結果。企業(yè)需要知道什么?他們需要回答的問題是什么?在你開始使用Hadoop前,解決這些問題,并簽訂聯(lián)合協(xié)議。然后按照下列步驟操作(每個步驟可能需要數(shù)周或者數(shù)月):
1、隔離屬于“大數(shù)據(jù)”的部分數(shù)據(jù)
2、分離“產(chǎn)品”大數(shù)據(jù)和“公司”大數(shù)據(jù),例如人力資源分析需要的員工數(shù)據(jù)和電子商務平臺的客戶或產(chǎn)品搜索數(shù)據(jù)需要分離
3、認識和了解你的數(shù)據(jù)的波峰和波谷
4、了解哪些技術允許實時(或接近實時)大數(shù)據(jù)處理
5、確定關鍵的解決方案/供應商
6、從小事做起,評估與發(fā)展-先做一個項目,讓你可以快速展示成果和ROI,然后轉(zhuǎn)移到下一個大數(shù)據(jù)項目
7、繼續(xù)分析、調(diào)整和輸入-大數(shù)據(jù)是靈活的,需要隨著數(shù)據(jù)、情報和企業(yè)要求的變化進行調(diào)整
第4步:利用分布式系統(tǒng)。大數(shù)據(jù)要求我們轉(zhuǎn)換對系統(tǒng)和基礎設施的想法。正如虛擬化從根本上改變了我們利用服務器和應用程序的方式,分布式系統(tǒng)和處理使我們能夠管理大數(shù)據(jù),因為分布式架構允許我們將問題分解成很多小任務,然后將這些任務分配到多個系統(tǒng)。好消息是,我們擁有了越來越多的攻擊和架構框架可以利用,包括Cassandra、Hadoop、VMware、Red Hat等。分布式系統(tǒng)并不新鮮,但大數(shù)據(jù)將其帶入到全新的水平,分布式方法包括:
● 多租戶架構
● 分布式數(shù)據(jù)庫
● 虛擬化
● 多線程
● 多核心CPU
● 并行處理
● 分布式文件系統(tǒng)
● 分布式負載平衡
● RAID算法
第5步:從分布式到分散式。 對大多數(shù)公司來說,這是真正的范式轉(zhuǎn)變,這也是大數(shù)據(jù)和云計算結合的地方,鑒于互聯(lián)網(wǎng)是世界上最大的分布式和分散的系統(tǒng),我們應該更加充分地利用互聯(lián)網(wǎng)來實現(xiàn)大數(shù)據(jù)。
我們很喜歡分布式實例或者計算處理,但分散式往往有種失去控制的感覺。這有必要嗎?對于大數(shù)據(jù),采用分散式做法是必要的,因為由于過度和孤立的服務,所有未使用的實例和存儲容量都將浪費。
更重要的是,單靠分布式組件無法讓我們跟上數(shù)據(jù)增長的步伐。IDC估計,到2020年,產(chǎn)生的數(shù)據(jù)和數(shù)據(jù)中心容量之間的差距將達到60%.
然而,部分原因在于我們沒有充分利用我們已經(jīng)擁有的容量。Gartner估計,大多數(shù)計算機、服務器和網(wǎng)絡只運行了30%的容量以準備好應對峰值或者未來增長。雖然我們可能永遠不會以90%或者100%的容量運行,但我們可以更好地利用現(xiàn)有的容量,節(jié)省數(shù)百萬美元,提高現(xiàn)有基礎設施的總體擁有成本(TCO)。
分散式方法的主要特點:
● 沒有中央瓶頸
● 大量的能力
● 有機的,需求推動容量增長
● 充分利用現(xiàn)有的基礎設施和邊緣設備
● 信息共享
● 假定每個人/每一個節(jié)點是“不可信任的”
● 地理分布:
○ 所有權和參與
○ 成本
○ 管理開銷
○ 風險
分散式方法存在很多很好的例子,其中最知名的就是開源運動。
分散式方法還有兩個新例子,筆者定義為分散式云系統(tǒng):CloudStack和OpenStack.我們?nèi)匀晃挥诜稚⑹椒椒ǖ脑缙陔A段,但隨著數(shù)據(jù)繼續(xù)增長,這將是未來幾年的重要趨勢。[page]
第6步:雇傭/培養(yǎng)合適的人才和技能。 云計算并不意味著更少的IT工作,但云計算和大數(shù)據(jù)的出現(xiàn)卻是意味著我們需要發(fā)展我們的技能和培養(yǎng)人才。在大數(shù)據(jù)世界,數(shù)據(jù)庫管理員等現(xiàn)有崗位變得更加重要。你還需要培養(yǎng)和招聘的其他職位包括:
● 數(shù)據(jù)科學家
● 架構師
● 隨機理論師(算法)
● 業(yè)務分析師
● UX/UI專家
其中一些職位似乎是合乎邏輯的,但對于業(yè)務分析師和UX/UI專家,傳統(tǒng)上不屬于IT部門,你可以將這些人員安排在生產(chǎn)管理中,而在大數(shù)據(jù)解決方案中,他們需要攜手開發(fā)和運營團隊。這是因為你不能直接將大數(shù)據(jù)信息交給業(yè)務方面,使用圖表和易于理解的分析是關鍵。
此外,如果你還沒有整合開發(fā)/運營團隊來更好地管理云計算部署,那么現(xiàn)在可以這樣做了。這兩個團隊必須攜手合作來實現(xiàn)任何云計算或者大數(shù)據(jù)戰(zhàn)略。
第7步:通過大數(shù)據(jù)來利用數(shù)據(jù)。正如IT職位可能開始更傾向于業(yè)務,IT需要改變其度量的方式。你的團隊中的每個人都應該熱衷于追蹤和記錄關鍵性能指標(KPI),這些應該符合業(yè)務指標,而不只是及時發(fā)布和交付高質(zhì)量代碼。技術團隊的每個人都應該有明確的指標,并努力尋找新方法來提高指標結果。
大數(shù)據(jù)可能不是我們所有人想要的答案,但它確實給IT創(chuàng)造了幫助企業(yè)提高收入的機會。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10