
透析大數(shù)據(jù)行業(yè)技術(shù)演進路徑 把握企業(yè)發(fā)展脈絡(luò)
作為集團“大數(shù)據(jù)平臺技術(shù)”戰(zhàn)略研究的準備工作,本文梳理了近年來作者觀測到的大數(shù)據(jù)行業(yè)技術(shù)演進的路徑,希望把握發(fā)展脈絡(luò),找到適合公司業(yè)務(wù)實際的方向。文章力求用通俗的方式描述概念,最大程度減少專業(yè)圖表與細節(jié),以便向公司管理層與業(yè)務(wù)部門同事介紹大數(shù)據(jù)平臺技術(shù)的發(fā)展與趨勢,這里分享給金融行業(yè)的朋友參考。
數(shù)據(jù)技術(shù)演進
軟件系統(tǒng),小到HelloWorld編程入門,大到數(shù)億人同時使用的社交軟件、搜索引擎,或者是基于公有云的軟件即服務(wù)(SaaS),本質(zhì)上都是在處理兩件事情:業(yè)務(wù)邏輯與數(shù)據(jù)。隨著信息時代的縱深發(fā)展,業(yè)務(wù)邏輯不斷豐富與演化的同時,其所產(chǎn)生與處理的數(shù)據(jù)量(Volume)也出現(xiàn)指數(shù)級的迅速增長,業(yè)務(wù)所要求的系統(tǒng)處理速度(Velocity)從批量向準實時與實時過度,數(shù)據(jù)的種類(Variety)也從簡單的結(jié)構(gòu)化的記錄向文本、語音、圖像視頻等豐富的形式發(fā)展。這就是大數(shù)據(jù)的三個最典型的特征。
傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)處理過程是:在線交易系統(tǒng)(OLTP,通常是關(guān)系型數(shù)據(jù)庫)產(chǎn)生的數(shù)據(jù),經(jīng)過Federation/ETL工具整合清洗后,加載到在線分析系統(tǒng)(OLAP,通常是數(shù)據(jù)倉庫、BI與統(tǒng)計分析),然后生成報表或統(tǒng)計模型。大數(shù)據(jù)的三個V對吞吐量、響應(yīng)時間的要求都超越了這個成熟的模式的技術(shù)上限。因而催生了大量的能處理海量數(shù)據(jù)的新框架。
這些新框架沿著兩個思路解決吞吐量與響應(yīng)時間的問題:垂直擴展(scaleup)或水平擴展(scaleout)。垂直擴展門檻高,技術(shù)為IBM之類的大公司所壟斷,而水平擴展則門檻相對較低,以源自Google公司的MapReduce為代表,在開源的推動下迅速普及。著名的ApacheHadoop就是此類技術(shù)的代表,具備強大的生命力。
這些新框架多來自程序社區(qū),其繁榮一度讓人們覺得可以淘汰數(shù)據(jù)社區(qū)SQL那套技術(shù)體系。隨著多種NoSQL數(shù)據(jù)庫的廣泛應(yīng)用,人們發(fā)現(xiàn),數(shù)據(jù)的一致性,可用性與并行性三者不是可以同時獲得的,強化其中之一是以弱化另外一個要素為代價的。而且編程方式的數(shù)據(jù)使用缺乏一致的標準,造成諸多問題。因而,程序社區(qū)與數(shù)據(jù)社區(qū)的逐步融合成為趨勢選擇,NoSQL發(fā)展成NotOnlySql,再到NewSQL,水平擴展的新型數(shù)據(jù)處理框架獲得了標準化的SQL訪問界面。
在很多場景下,分而治之的方式可以解決吞吐量的問題,單位時間內(nèi),增加更多的機器,可以增加處理的數(shù)據(jù)量,Volume的問題得到解決。而系統(tǒng)對于處理速度的不懈追求,則可以通過不斷拉近數(shù)據(jù)與處理器(CPU)的距離得到滿足,磁帶到硬盤,硬盤到SSD,SSD到Flash,F(xiàn)lash到內(nèi)存,內(nèi)存到一二級Cache,再到寄存器。從內(nèi)存數(shù)據(jù)庫到分布式Cache,再到Spark,處理同等量的數(shù)據(jù)越來越快。
處理多樣性數(shù)據(jù)的系統(tǒng)也在與時俱進,對應(yīng)數(shù)倉/BI時期的多媒體內(nèi)容管理系統(tǒng),多是以描述這些多媒體內(nèi)容的元數(shù)據(jù)作為索引,訪問鏈接到這些內(nèi)容數(shù)據(jù)。新分布式大數(shù)據(jù)處理框架下,則引入了文本分析,語音圖像的機器學(xué)習(xí)以至深度學(xué)習(xí)技術(shù)來“認識”這些內(nèi)容,而不是簡單的存儲與訪問?;诨ヂ?lián)網(wǎng)海量內(nèi)容的知識圖譜的構(gòu)建也有大幅度進步。
Fintech數(shù)據(jù)處理
金融,一直是數(shù)據(jù)系統(tǒng)的重量級應(yīng)用行業(yè),信息化早,程度也高。隨著IBMORACLE等巨頭在該行業(yè)深耕多年,金融機構(gòu)大多在傳統(tǒng)的數(shù)據(jù)體系上有了較為完備的建設(shè)。OLTP交易系統(tǒng)、數(shù)據(jù)同步、整合與治理、數(shù)據(jù)倉庫/集市、BI報表與統(tǒng)計分析,是相對完善的。不少的企業(yè)還實現(xiàn)了內(nèi)容管理系統(tǒng)的建設(shè)使用。
互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)上面構(gòu)筑的數(shù)據(jù)資產(chǎn)壁壘,開發(fā)利用后獲取的競爭優(yōu)勢,讓傳統(tǒng)的金融企業(yè),特別是那些坐擁億萬客戶資源的金融企業(yè),開始意識到大數(shù)據(jù)帶來的價值以及潛在的驅(qū)動與變革力量,逐步重視積累與發(fā)掘利用大數(shù)據(jù)資產(chǎn),籍此提升企業(yè)的科技能力,獲取行業(yè)的競爭優(yōu)勢?!皵?shù)據(jù)陽光”就是陽光保險集團高瞻遠矚的重要戰(zhàn)略。
金融行業(yè)服從嚴格的數(shù)據(jù)安全與監(jiān)管,對數(shù)據(jù)一致性近乎苛求。因而傳統(tǒng)的金融數(shù)據(jù)體系以可靠性與一致性為原則構(gòu)建,強調(diào)事務(wù)處理,其中涉及到的分布系統(tǒng)也都具備兩階段提交(2PC)等分布式事務(wù)能力。起源于互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)處理框架,則多選擇放松處理過程中的一致性要求,提升系統(tǒng)并行能力與性能,僅追求最終一致性。因而在金融數(shù)據(jù)體系中,分析型的系統(tǒng)相對交易系統(tǒng),更適合采用這些框架。
風(fēng)險控制是金融企業(yè)核心能力,風(fēng)控與征信變成金融大數(shù)據(jù)的主場景。獲取足夠的用戶行為數(shù)據(jù),建立合理的評估模型,有助于企業(yè)在用戶金融活動的整個生命周期規(guī)避風(fēng)險,提升服務(wù)水平?,F(xiàn)行的金融技術(shù)體系,無法從技術(shù)上確保交易主體間的相互信任,需要依賴第三方征信主體參與,而鑒于數(shù)據(jù)碎片化、交易壁壘與隱私保護等因素,基于大數(shù)據(jù)的征信,目前以至未來很長時間,還有較大的改進空間。
區(qū)塊鏈技術(shù)的繁榮,以及與金融科技的逐步融合,有巨大的潛力改變現(xiàn)有的金融數(shù)據(jù)體系。區(qū)塊鏈被認為是技術(shù)保證信任的價值網(wǎng)絡(luò),或者說是業(yè)務(wù)互聯(lián)網(wǎng)。業(yè)務(wù)實體可以相互信任的處理之間的金融交易,而無需中心征信機構(gòu)的參與。鏈上的數(shù)據(jù)以加密方式參與分布式事務(wù)/容錯(Paxos/PBFT),確保不可篡改的一致性。強的分布式與一致性,需以犧牲系統(tǒng)性能為代價,因而較為適合替代現(xiàn)有金融系統(tǒng)中的數(shù)據(jù)骨干網(wǎng)絡(luò)。而對于類似每秒10幾萬次交易的支付系統(tǒng)則是不適合的。
云支撐大數(shù)據(jù)
大數(shù)據(jù)是資源密集型的系統(tǒng),對于存儲、計算、網(wǎng)絡(luò)等核心IT資源需求強勁,自然成為云計算最佳支撐領(lǐng)域。目前主流的云平臺都配有自成體系的大數(shù)據(jù)系統(tǒng),滿足企業(yè)大數(shù)據(jù)處理端到端的需求,也就是從數(shù)據(jù)采集獲取、同步加載、整合清洗、安全管控、分析建模、可視化、機器學(xué)習(xí)、深度學(xué)習(xí)一整套支撐工具與系統(tǒng)。多數(shù)基于開源的體系定制并優(yōu)化,典型的如亞馬遜AWS上的EMR,微軟Azure上的HDInsight等,都基于ApacheHadoop。這些能力通常具有非常強的伸縮性,多租戶共享,適應(yīng)企業(yè)忙時閑時的不同需求,并且按照用量計費,用多少付多少費用。這些系統(tǒng)和工具多以平臺即服務(wù)(PaaS)+設(shè)施即服務(wù)(IaaS)方式在公有云上提供。
考慮到不少企業(yè),特別是金融企業(yè)的數(shù)據(jù)體系,具有非常強的數(shù)據(jù)安全與監(jiān)管要求,不少云平臺提供商將其公有云上的數(shù)據(jù)能力,也整合打包到其相應(yīng)的私有云商業(yè)軟件套件之中,例如微軟私有云套件,阿里云私有云中的大數(shù)據(jù)平臺等。這些商業(yè)軟件套件按照企業(yè)用戶的要求,部署到企業(yè)自建自營的數(shù)據(jù)中心中,提供類似公有云上的端到端的數(shù)據(jù)能力。企業(yè)用戶獲得了對平臺、對數(shù)據(jù)自主控制的能力,損失了相應(yīng)的彈性與及時更新。
云計算技術(shù)已進入普及階段,寡頭產(chǎn)生。國際巨頭亞馬遜、微軟、IBM紛紛落地中國,騰訊等幾家云計算也強勢崛起。這些主流的云平臺除了提供通用的大數(shù)據(jù)能力之外,還紛紛針對金融企業(yè)的特殊性推出相應(yīng)的金融云服務(wù),這里包括金融業(yè)務(wù)系統(tǒng)以及相應(yīng)的數(shù)據(jù)保護、安全防攻擊等等,不同層級的軟硬件隔離或共享的策略,滿足不同的安全意愿。相應(yīng)的服務(wù)日趨健全,例如新籌建保險公司,金融云可以與籌建團隊一起滿足保監(jiān)會在IT與數(shù)據(jù)層面的籌建要求。
目前國內(nèi)大型企業(yè)多采用公有云與私有云相結(jié)合的混合云方式,將核心的數(shù)據(jù)系統(tǒng)控制在自家的數(shù)據(jù)中心中,將部分前端業(yè)務(wù)系統(tǒng)與外圍業(yè)務(wù)系統(tǒng)部署到公有云上,以獲取一定的彈性與靈活性,節(jié)約成本。
從技術(shù)層面講,目前主流云平臺多以提供資源的虛擬化為基礎(chǔ),將存儲、CPU、內(nèi)存、網(wǎng)絡(luò)以虛擬機或容器的方式實現(xiàn)邏輯隔離,基于邏輯上的隔離共享與調(diào)度支持上層的數(shù)據(jù)處理體系,如數(shù)據(jù)倉庫、分布式大數(shù)據(jù)框架(Hadoop,Spark等)、機器學(xué)習(xí)模型與算法等。并且依據(jù)大數(shù)據(jù)應(yīng)用負載的不同,針對計算密集,磁盤IO密集或網(wǎng)路IO密集的不同特點,做不同的優(yōu)化,甚至拋開虛擬化,直接在硬件系統(tǒng)上部署大數(shù)據(jù)框架。
人工智能平臺
年過半百的人工智能,經(jīng)歷兩次發(fā)展低谷到近十年來再次爆發(fā),與大數(shù)據(jù)在深度與廣度上的積累,以及相關(guān)處理技術(shù)的長足進步密不可分。人工智能依賴機器學(xué)習(xí),垂直領(lǐng)域不斷豐富的數(shù)據(jù)積累,為機器學(xué)習(xí)提供了原材料;開源的水平擴展的大數(shù)據(jù)框架為各種復(fù)雜的機器學(xué)習(xí)算法提供了價格低廉的算力,從而推動了人工智能在包括搜索、廣告、語音識別、圖像識別、自然語音理解等等領(lǐng)域的質(zhì)的飛躍。
機器學(xué)習(xí)就是發(fā)現(xiàn)用來學(xué)習(xí)的數(shù)據(jù)集里面隱含的規(guī)律的過程,簡單情況下,可以將這種隱含的規(guī)律描述為某種數(shù)學(xué)函數(shù),給定某些輸入,可以得到某些輸出。但大部分時候,機器學(xué)習(xí)的結(jié)果無法直觀表達為函數(shù),而是一個可以運行的計算模型,從此種意義上看,是數(shù)據(jù)產(chǎn)生了程序邏輯,以前這些邏輯只能由程序員編碼實現(xiàn)。目前這些機器學(xué)出來的模型廣泛應(yīng)用在許多不同領(lǐng)域,來做分群、分類或者預(yù)測。
作為機器學(xué)習(xí)的一個重要前沿分支,深度學(xué)習(xí)技術(shù)在語音與圖像識別、自然語言處理,概念與內(nèi)容理解等方面帶來實質(zhì)性重大技術(shù)進步,已成為大數(shù)據(jù)價值轉(zhuǎn)化商業(yè)財富的有效手段。Google,微軟,F(xiàn)acebook,百度等科技巨頭在深度學(xué)習(xí)領(lǐng)域持續(xù)取得進展,研發(fā)成果也以開源的方式分享出來,例如Google的Tensorflow,微軟的CNTK等優(yōu)秀的深度學(xué)習(xí)框架,以及海量的標注數(shù)據(jù)。這些工具對Hadoop,Spark等開源大數(shù)據(jù)框架提供了良好支持,顯著降低了企業(yè)應(yīng)用深度學(xué)習(xí)的門檻。
作為機器學(xué)習(xí)成果的綜合試驗場,移動設(shè)備上的智能聊天機器人(或稱私人助手)大熱。蘋果Siri,GoogleNow,微軟Cortana都可以學(xué)習(xí)用戶行為習(xí)慣,理解語義語境,與用戶人機對話。這些聊天機器人吸引并沉淀了大量用戶,成為新的人機交互入口。Facebook,Google與微軟更是順勢推出BotEngine/BotFramework等機器人引擎,其背后是云端的認知服務(wù)體系,一套也可做語音識別、自然語言理解、語音合成、視覺識別、情感分析、面部識別、視頻檢測,搜索等功能的人工智能平臺。廠商將這種智能的人機交互能力以機器人引擎加人工智能平臺的方式開放出來,用來構(gòu)建龐大的生態(tài)系統(tǒng)。
綜上所述,隨著企業(yè)與互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)不斷融合,大數(shù)據(jù)平臺技術(shù)呈現(xiàn)出兩大發(fā)展脈絡(luò):(1)沿著從依托編程、專注物理底層邏輯,到深度依賴數(shù)據(jù)、數(shù)據(jù)產(chǎn)生業(yè)務(wù)邏輯的脈絡(luò)不斷進化。(2)新型的人機交互方式,則將大數(shù)據(jù)平臺技術(shù)能力服務(wù)化,而平臺支撐的機器學(xué)習(xí)算法的革新,則為這種服務(wù)持續(xù)賦予智能??梢灶A(yù)見,不遠的將來,智能化大數(shù)據(jù)平臺將成為公司數(shù)字化經(jīng)營決策的中樞神經(jīng),每一個公司都會有自己的數(shù)字大腦。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03