
企業(yè)大數(shù)據(jù)應(yīng)用三段論
隨著云計(jì)算、物聯(lián)網(wǎng)和開(kāi)源大數(shù)據(jù)技術(shù)生態(tài)的高速發(fā)展,企業(yè)獲得大數(shù)據(jù)相關(guān)基礎(chǔ)設(shè)施技術(shù)和服務(wù)越來(lái)越容易。雖然現(xiàn)階段大數(shù)據(jù)成熟應(yīng)用多在互聯(lián)網(wǎng)公司,但我們需認(rèn)識(shí)到,一方面,大數(shù)據(jù)應(yīng)用是非常碎片化的,這個(gè)碎片化包括業(yè)務(wù)層面和技術(shù)層面,大數(shù)據(jù)不只是谷歌,亞馬遜,BAT等互聯(lián)網(wǎng)企業(yè),每一個(gè)行業(yè)、企業(yè)里面都有它去關(guān)注數(shù)據(jù)的痕跡:一條生產(chǎn)線上的實(shí)時(shí)傳感器數(shù)據(jù),車輛身上的傳感數(shù)據(jù),高鐵設(shè)備的運(yùn)行狀態(tài)數(shù)據(jù),交通部門的監(jiān)控?cái)?shù)據(jù),醫(yī)療機(jī)構(gòu)的病例數(shù)據(jù),政府部門的海量數(shù)據(jù)等等;大數(shù)據(jù)不只是Hadoop和Spark,從采集、存儲(chǔ)、挖掘、預(yù)測(cè)、展示、決策各個(gè)層面的技術(shù)生態(tài)體系十分龐雜。很多企業(yè)都意識(shí)到大數(shù)據(jù)應(yīng)用潛力巨大,但說(shuō)到具體業(yè)務(wù)需求就是一頭霧水,到具體技術(shù)選型還是一頭霧水;另一方面,現(xiàn)在開(kāi)源大數(shù)據(jù)技術(shù)泛型下的系統(tǒng)、技術(shù)及架構(gòu)主要來(lái)源于互聯(lián)網(wǎng)巨頭,這種技術(shù)架構(gòu)真正適合傳統(tǒng)企業(yè)和機(jī)構(gòu)嗎?中小企業(yè)如何做大數(shù)據(jù)應(yīng)用?互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)架構(gòu)是否適合傳統(tǒng)企業(yè)大數(shù)據(jù)應(yīng)用?傳統(tǒng)企業(yè)的核心數(shù)據(jù)多是結(jié)構(gòu)化的,如何對(duì)眾多業(yè)務(wù)系統(tǒng)的分析整合進(jìn)行支撐,如何對(duì)傳統(tǒng)商業(yè)智能(Business Intelligence, BI)系統(tǒng)進(jìn)行集成或逐步升級(jí)替換?諸如此類問(wèn)題需要深入調(diào)研、分析和具有豐富的業(yè)務(wù)技術(shù)經(jīng)驗(yàn)才能做好規(guī)劃設(shè)計(jì)。另外大數(shù)據(jù)時(shí)代數(shù)據(jù)的壟斷趨勢(shì)在加劇,中小企業(yè)甚至處于信息化劣勢(shì)的國(guó)家,如何獲得數(shù)據(jù)話語(yǔ)權(quán)更值得深思,怎么樣設(shè)計(jì)實(shí)施大數(shù)據(jù)戰(zhàn)略就更重要了。
上述種種問(wèn)題,說(shuō)明我們對(duì)大數(shù)據(jù)應(yīng)用充滿了困惑。如何解惑,下面提出自己的一點(diǎn)粗淺看法。我們都知道,大數(shù)據(jù)成熟應(yīng)用來(lái)源于互聯(lián)網(wǎng)企業(yè),大數(shù)據(jù)技術(shù)也發(fā)源于互聯(lián)網(wǎng)巨頭,為什么?這跟互聯(lián)網(wǎng)企業(yè)的基因有關(guān),UGC海量數(shù)據(jù)就不說(shuō)了,互聯(lián)網(wǎng)公司業(yè)務(wù)和技術(shù)都注重幾個(gè)關(guān)鍵詞:敏捷、簡(jiǎn)潔、迭代。什么樣的數(shù)據(jù),用哪種方式存儲(chǔ)效率最高,怎么樣處理起來(lái)速度最快成本最低,如何持續(xù)支持海量數(shù)據(jù)存儲(chǔ)和并發(fā)訪問(wèn)等。企業(yè)要想應(yīng)用好大數(shù)據(jù),就應(yīng)該大膽的拋棄傳統(tǒng)的信息化思路,從零開(kāi)始,借助于互聯(lián)網(wǎng)企業(yè)敏捷和迭代理念,真正去思考這么多歷史數(shù)據(jù)對(duì)企業(yè)來(lái)講有什么意義,會(huì)產(chǎn)生什么價(jià)值,如何最佳應(yīng)用實(shí)施。說(shuō)白了這就是大數(shù)據(jù)思維的變革,雖然說(shuō)起來(lái)有點(diǎn)虛,但這個(gè)思維觀念不轉(zhuǎn)變過(guò)來(lái),是很難做好大數(shù)據(jù)應(yīng)用的。接下來(lái)企業(yè)要問(wèn)自己幾個(gè)核心的問(wèn)題:要處理的數(shù)據(jù)類型有哪些?要處理的數(shù)據(jù)量和未來(lái)的增長(zhǎng)規(guī)模如何?處理的速度要求快還是慢?已有的數(shù)據(jù)和系統(tǒng)現(xiàn)狀怎么樣如何和大數(shù)據(jù)應(yīng)用整合?大數(shù)據(jù)分析的背景知識(shí)和分析目標(biāo)是怎么樣的?上述問(wèn)題明確之后,還必須認(rèn)識(shí)到,在企業(yè)大數(shù)據(jù)應(yīng)用實(shí)施過(guò)程中,由于成本、時(shí)間、技術(shù)和人力考慮,不可能短時(shí)間內(nèi)建設(shè)所有大數(shù)據(jù)相關(guān)的業(yè)務(wù)子系統(tǒng),大數(shù)據(jù)應(yīng)用本身有其規(guī)律和特點(diǎn),比如分析目標(biāo)一定是要跟數(shù)據(jù)規(guī)模匹配,分析技術(shù)的采用取決于數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)源條件,數(shù)據(jù)集成一定要覆蓋比較全面的業(yè)務(wù)背景,關(guān)鍵環(huán)節(jié)數(shù)據(jù)不能有缺失等等。
最后建議企業(yè)大數(shù)據(jù)應(yīng)用分三個(gè)階段進(jìn)行:(1)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)階段:這個(gè)階段的重點(diǎn)是把大數(shù)據(jù)存起來(lái),管起來(lái),能用起來(lái),同時(shí)要考慮大數(shù)據(jù)平臺(tái)和原有業(yè)務(wù)系統(tǒng)的互通聯(lián)合問(wèn)題。一句話,做好全局數(shù)據(jù)集成解決數(shù)據(jù)孤島問(wèn)題!要完成大數(shù)據(jù)基礎(chǔ)設(shè)施系統(tǒng)(主要是采集和存儲(chǔ))搭建和集成開(kāi)發(fā),明確數(shù)據(jù)采集、存儲(chǔ)和分析各層核心組件的選型和使用,搭建穩(wěn)定的大數(shù)據(jù)集群,或選擇私有云方案的服務(wù)集群,與生產(chǎn)系統(tǒng)并線運(yùn)行,使待分析的歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)得以采集并源源不斷流入大數(shù)據(jù)系統(tǒng)。
(2)大數(shù)據(jù)基礎(chǔ)描述分析階段:此階段主要定位于離線或在線對(duì)歷史數(shù)據(jù)進(jìn)行企業(yè)全局條件下的基本描述統(tǒng)計(jì)分析,對(duì)管理起來(lái)的大數(shù)據(jù)能進(jìn)行海量存儲(chǔ)條件下的交互式查詢、匯總、統(tǒng)計(jì)和可視化,如果建設(shè)了BI系統(tǒng)的,還需整合傳統(tǒng)BI技術(shù)進(jìn)行OLAP、KPI、Report、Chart、Dashboard等分析和初步的描述型數(shù)據(jù)挖掘分析,并能快速驗(yàn)證描述分析結(jié)果進(jìn)行調(diào)整,同時(shí)對(duì)大數(shù)據(jù)系統(tǒng)進(jìn)行迭代升級(jí)開(kāi)發(fā)。這個(gè)基礎(chǔ)分析階段是對(duì)數(shù)據(jù)集成質(zhì)量的檢驗(yàn),也是對(duì)海量數(shù)據(jù)條件下的分布式存儲(chǔ)管理技術(shù)應(yīng)用穩(wěn)定性的測(cè)試,同時(shí)要能替代傳統(tǒng)BI的豪華報(bào)表就算基本成功了。
(3)大數(shù)據(jù)高級(jí)預(yù)測(cè)分析和生產(chǎn)部署階段:在初步描述分析結(jié)果合理,符合預(yù)期目標(biāo),數(shù)據(jù)分布式管理和描述挖掘穩(wěn)定成熟的條件下,可結(jié)合進(jìn)一步業(yè)務(wù)點(diǎn)分析需求,采用如深度學(xué)習(xí)等適用海量數(shù)據(jù)處理的機(jī)器學(xué)習(xí)模型,進(jìn)行高級(jí)預(yù)測(cè)性挖掘分析。并通過(guò)逐步迭代優(yōu)化挖掘模型和數(shù)據(jù)質(zhì)量,形成穩(wěn)定可靠和性能可擴(kuò)展的預(yù)測(cè)分析模型,并在企業(yè)相關(guān)業(yè)務(wù)服務(wù)中使用分析結(jié)果進(jìn)行驗(yàn)證、支持和反饋,核心目標(biāo)就是像谷歌大腦,百度大腦計(jì)劃落地一樣,建立企業(yè)未來(lái)的決策支持中心和實(shí)現(xiàn)真正的商業(yè)智能!
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問(wèn)題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價(jià)值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 ...
2025-09-09