
大數(shù)據(jù)已死—但大數(shù)據(jù)亦將長(zhǎng)存
在不久的將來(lái),我們將迎來(lái)大量集合了分布式處理、機(jī)器學(xué)習(xí)以及分析等當(dāng)下各項(xiàng)熱門(mén)定制化解決方案的“預(yù)打包”式應(yīng)用程序。
在過(guò)去的幾年當(dāng)中,我們一直在積極討論大數(shù)據(jù),而這一切的推動(dòng)要素正是當(dāng)初的Hadoop與現(xiàn)下的Spark。下一輪熱點(diǎn)將圍繞著將機(jī)器學(xué)習(xí)引入大數(shù)據(jù)展開(kāi),但如果不繼續(xù)使用上述熱門(mén)詞匯、我們?nèi)匀缓茈y讓人們接受AI與分析技術(shù)方案。
事實(shí)上,大數(shù)據(jù)時(shí)代目前正迅速走向其生命周期的終點(diǎn)。大家可能已經(jīng)發(fā)現(xiàn),各大媒體關(guān)于大數(shù)據(jù)技術(shù)的相關(guān)報(bào)道正不斷減少——在我看來(lái),這意味著Gartner著名的炒作周期已經(jīng)由此走向低價(jià)甚至幻滅。
時(shí)至今日,大數(shù)據(jù)概念已經(jīng)步入“終結(jié)”的轉(zhuǎn)折點(diǎn),但這項(xiàng)技術(shù)的實(shí)際應(yīng)用卻將由此開(kāi)始興起。
對(duì)于整個(gè)業(yè)界而言,這意味著“讓我們先推出相關(guān)平臺(tái),再觀察其實(shí)際效果”類項(xiàng)目將越來(lái)越少。決策制定者們將采取更為合理的方案并以實(shí)際業(yè)務(wù)問(wèn)題作為切入點(diǎn)——這顯然更符合科學(xué)實(shí)施思維。換言之,即使是平臺(tái)供應(yīng)商自身也開(kāi)始更多地著眼于“解決方案”。
針對(duì)特定問(wèn)題的標(biāo)準(zhǔn)化解決方案
接下來(lái)的另一項(xiàng)重要步驟在于分析問(wèn)題、找出模式并創(chuàng)建能夠切實(shí)解決這些問(wèn)題的打包解決方案。
我們已經(jīng)親眼見(jiàn)證金融業(yè)界的不少企業(yè)對(duì)各類分布式欺詐檢測(cè)方案進(jìn)行打包并加以運(yùn)用。欺詐檢測(cè)軟件并不算什么新鮮事物,但將其分布至Hadoop以及 /或者云規(guī)模之下卻是種前所未見(jiàn)的新思路。當(dāng)然,盡管金融行業(yè)的行動(dòng)速度很快,但欺詐活動(dòng)的組織者同樣在與時(shí)俱進(jìn)。多年以來(lái),金融業(yè)界一直無(wú)法真正追及惡意活動(dòng)者們的發(fā)展節(jié)奏。但現(xiàn)在,他們有了發(fā)起反擊的必要武器,而Hadoop、Spark以及其它現(xiàn)代化工具將成為其軍火庫(kù)中最值得信賴的新儲(chǔ)備。
單純采用下一代技術(shù)方案還不足以讓定制化解決方案擁有應(yīng)對(duì)一切的能力。面向信用卡的欺詐檢測(cè)機(jī)制與其它發(fā)票開(kāi)具、保險(xiǎn)乃至各類常見(jiàn)商業(yè)應(yīng)用其實(shí)并無(wú)本質(zhì)區(qū)別。下一波浪潮的核心并不是針對(duì)特定業(yè)界編寫(xiě)出專用性極高的應(yīng)用程序,而是思考如何利用“分布式大數(shù)據(jù)模式”解決跨多種現(xiàn)有業(yè)務(wù)線的各類常見(jiàn)問(wèn)題。
當(dāng)然,構(gòu)建一套定制化解決方案以幫助每一位使用者以不同方式解決類似問(wèn)題的作法仍將持續(xù)相當(dāng)長(zhǎng)的一段時(shí)間。不過(guò)未來(lái)我們需要逐步找尋具備共性的開(kāi)發(fā)模式,并將其推廣至各個(gè)業(yè)務(wù)線當(dāng)中——具體而言,以規(guī)?;植挤绞竭\(yùn)用這項(xiàng)新技術(shù),將其拓展至能夠帶來(lái)經(jīng)濟(jì)優(yōu)勢(shì)的規(guī)模并在排除盲點(diǎn)之后加以部署。最終,我們將成功實(shí)現(xiàn)定制化調(diào)整,使用正確的表述并加入必要調(diào)整,但同時(shí)又要保證軟件當(dāng)中的接入算法不需要在面臨不同具體問(wèn)題時(shí)進(jìn)行反復(fù)重寫(xiě)——這才是大數(shù)據(jù)技術(shù)的終極實(shí)現(xiàn)目標(biāo)。
我們此前已經(jīng)經(jīng)歷過(guò)類似的狀況。幾十年前,財(cái)會(huì)軟件就曾經(jīng)是一類熱門(mén)話題。雖然大家仍然會(huì)偶爾接觸到特定業(yè)務(wù)領(lǐng)域的專用性財(cái)會(huì)軟件,但多數(shù)大型企業(yè)都在使用打包式解決方案,其中只有特定部分進(jìn)行定制或者利用插件解決不同行業(yè)內(nèi)的特定需求。經(jīng)驗(yàn)豐富的CIO及CTO很少為特定某套業(yè)務(wù)線編寫(xiě)專用的財(cái)會(huì)工具包,并將其適用范疇限定在單一企業(yè)當(dāng)中。他們更傾向于購(gòu)買現(xiàn)成產(chǎn)品,即使可選方案的種類并不是非常豐富。
下一次巨大飛躍將表現(xiàn)為“數(shù)據(jù)驅(qū)動(dòng)”形式,并將“機(jī)器學(xué)習(xí)”技術(shù)引入到一系列軟件包的購(gòu)買及獨(dú)立功能集成當(dāng)中。從后端角度出發(fā),整個(gè)流程也許將由大數(shù)據(jù)驅(qū)動(dòng),但“大數(shù)據(jù)”本身就像是以太網(wǎng)卡:它將成為一個(gè)前提性、但卻不再熱門(mén)的常規(guī)性技術(shù)議題。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10