
大數(shù)據(jù):釋放應用價值,數(shù)據(jù)融合先行
我們所處的社會已經(jīng)從IT(Information Technology)時代全面跨入DT(Data Technology)時代,數(shù)據(jù)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為關鍵的生產(chǎn)要素之一。從Gartner發(fā)布的大數(shù)據(jù)技術成熟度曲線圖中可以看出,大數(shù)據(jù)已不在是停留在概念層面,而是正式進入了產(chǎn)業(yè)化應用進程中。據(jù)統(tǒng)計,僅全球交通、教育、消費、電力、能源、健康與金融等7大重點領域的大數(shù)據(jù)應用潛在價值就在3.2萬億-5.4萬億元左右,大數(shù)據(jù)潛在發(fā)展空間巨大。
然而,從中國信息通信研究院的另一組數(shù)據(jù)表明,國內實際的應用情況尚有差距,據(jù)統(tǒng)計有44%的企業(yè)還沒有大數(shù)據(jù)部署和應用,24%的部署了但未實現(xiàn)大數(shù)據(jù)應用,只有1/3的企業(yè)初步應用了大數(shù)據(jù),是什么制約了大數(shù)據(jù)的快速普及之路? 中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會理事長鄔賀銓院士在2017大數(shù)據(jù)產(chǎn)業(yè)峰會上表示:"數(shù)據(jù)資源的流動性和可獲取性是大數(shù)據(jù)應用和產(chǎn)業(yè)發(fā)展的基礎,直接關系到大數(shù)據(jù)價值的實現(xiàn)情況。"
傳統(tǒng)的統(tǒng)計分析經(jīng)常是對單一數(shù)據(jù)源(營銷數(shù)據(jù)、行政報表、問卷調查、人口普查等)進行深入的追蹤和分析。分析人員對數(shù)據(jù)的來源和結構有一定的控制和深層的了解。但在大數(shù)據(jù)時代,數(shù)據(jù)源是多樣的、多種形態(tài)的,海量的數(shù)據(jù)常常是半結構或無結構的。從數(shù)據(jù)獲取到最終的數(shù)據(jù)價值呈現(xiàn)要經(jīng)歷數(shù)據(jù)從源頭接入、處理、存儲計算到分析挖掘、應用、服務的完整數(shù)據(jù)生命周期。這就要求數(shù)據(jù)科學家和分析師駕馭多樣、多源的數(shù)據(jù),將它們梳理后進行挖掘和分析。在這個過程中,數(shù)據(jù)融合就成為不可或缺的一步。
所謂數(shù)據(jù)融合,是以產(chǎn)生決策智能為目標將多種數(shù)據(jù)源中的相關數(shù)據(jù)提取、融合、梳理整合成一個分析數(shù)據(jù)集合,實現(xiàn)數(shù)據(jù)資源的流動和易獲取,從而支撐多樣并呈碎片化的商業(yè)智能服務使用。來自賽迪智庫的調研,現(xiàn)實中實施的大數(shù)據(jù)項目至少有80%的時間和經(jīng)費花在了數(shù)據(jù)準備上,其中多源數(shù)據(jù)的融合是最耗費資源的任務之一。紐約時報也曾報道: “數(shù)據(jù)科學家把高達80%的時間用于數(shù)據(jù)準備而不是用來發(fā)現(xiàn)新的商業(yè)智能”。
伴隨著人們對數(shù)據(jù)應用價值的不斷渴求,區(qū)別于傳統(tǒng)數(shù)據(jù)統(tǒng)計的需求,用戶對大數(shù)據(jù)的數(shù)據(jù)準備有著更高的要求:
第一, 多源。除了眾所周知的數(shù)據(jù)開放度的影響之外,多源數(shù)據(jù)融合的另一個瓶頸在于如何打破原有垂直建設系統(tǒng)間的信息孤島、構造統(tǒng)一的整體的數(shù)據(jù)平臺,把分散但相互有關聯(lián)的數(shù)據(jù)以整體的視角看待和思考并進行管理,并且通過這樣的統(tǒng)一平臺,對上層碎片化的或需要快速迭代的大數(shù)據(jù)應用進行有效、良好的支撐。比如在數(shù)據(jù)抓取中,要充分考慮傳統(tǒng)企業(yè)已經(jīng)具備大量系統(tǒng)存在的情況,而對于這些系統(tǒng)在不干擾的情況下,如何能夠把數(shù)據(jù)準確、高效、實時的拿得出來,快速認清企業(yè)有什么樣的數(shù)據(jù)原材料。這在非常多的尤其是政府、大型企業(yè)里面是個很大的挑戰(zhàn)。另外,數(shù)據(jù)進來之后,因為系統(tǒng)和系統(tǒng)之間的建設時間是不同的,數(shù)據(jù)的表現(xiàn)形態(tài)也是各異的,我們要對這些數(shù)據(jù)進行橫向之間的處理并且能把這些數(shù)據(jù)關聯(lián)起來,讓分散的數(shù)據(jù)形成一個整體,這都是數(shù)據(jù)融合過程中所要解決的問題。
第二, 實時。萬物互聯(lián)的趨勢下,人們不僅對于數(shù)據(jù)的數(shù)量,也對數(shù)據(jù)的時效性提出了愈來愈高的要求,有一組數(shù)據(jù)表明12%的管理者都能認識到數(shù)據(jù)對于企業(yè)或組織的巨大影響,然而,53%的管理者認為太多的核心信息不能及時獲得。特別是在某些連續(xù)性業(yè)務運轉的應用場景下,比如通信、金融、安全領域等,需要通過大數(shù)據(jù)技術對業(yè)務數(shù)據(jù)進行實時同步的收集、整合與挖掘分析,用以指導甚至是隨時根據(jù)數(shù)據(jù)變化而調整業(yè)務策略,而不是把業(yè)務系統(tǒng)停掉先分析再作出決策。對未來的預測遠比做事后諸葛更能體現(xiàn)大數(shù)據(jù)的潛在價值。
第三, 海量。在DT時代,數(shù)據(jù)量急劇爆發(fā),據(jù)IDC預測,目前全球每年數(shù)據(jù)的生產(chǎn)量是 8ZB( 1ZB=1024EB),2020 年將達到 40ZB。我們已經(jīng)從“傳統(tǒng)互聯(lián)網(wǎng)”時代的“線上數(shù)據(jù)化”階段和“互聯(lián)網(wǎng)+”時代的“線下數(shù)據(jù)化”階段,快速進入了“數(shù)據(jù)流通時代”,即線上線下全產(chǎn)業(yè)實現(xiàn)數(shù)據(jù)化,數(shù)據(jù)在產(chǎn)業(yè)鏈上下游甚至跨產(chǎn)業(yè)流通并創(chuàng)造價值的階段。在這一過程中,目前數(shù)據(jù)的生產(chǎn)速度和能力遠遠大于我們對其使用和價值變現(xiàn)的速度和能力。對數(shù)據(jù)業(yè)務價值的高期望值和落后的數(shù)據(jù)集成方案之間的矛盾日漸突出?;ヂ?lián)網(wǎng)、物聯(lián)網(wǎng)、云計算,我們的業(yè)務系統(tǒng)每時每刻都在產(chǎn)生著大量的不同來源的數(shù)據(jù),如何及時、有效、全面的捕獲到這些數(shù)據(jù)是另外一個會直接影響數(shù)據(jù)價值體現(xiàn)的關鍵因素。
多源、實時和海量,是大部分大數(shù)據(jù)應用中的普遍性要求,特別是在智慧城市等具有跨行業(yè)、跨系統(tǒng)、跨職能整合需要的信息化項目中,科學高效的數(shù)據(jù)融合方案至關重要。前不久,在“2017大數(shù)據(jù)產(chǎn)業(yè)峰會”上,湖北省升級政務云“楚天云”項目就憑借其創(chuàng)新的數(shù)據(jù)融合模式榮膺“2017年度政務大數(shù)據(jù)優(yōu)先應用案例獎”。作為“智慧湖北”建設的核心工程,“楚天云”是目前國內安全等級最高、規(guī)模最大、技術領先的省級政務云之一,承載了湖北省的52個省直部門的330個應用系統(tǒng)的各類海量政府核心數(shù)據(jù)。
在“楚天云”建設之初面對數(shù)量龐大的多個系統(tǒng),數(shù)據(jù)的流通和融合面臨巨大的難題。在經(jīng)過充分的調研和技術對比后,“楚天云”選擇了數(shù)據(jù)交換樞紐平臺的思路,采用目前國內領先的大數(shù)據(jù)技術廠商—翱旗科技的R7系列產(chǎn)品技術,把數(shù)據(jù)交換平臺架設于楚天云自身的IaaS云平臺之上,通過數(shù)據(jù)集成交互技術和數(shù)據(jù)資產(chǎn)管理技術,消除不同操作平臺、不同類型數(shù)據(jù)庫、不同結構數(shù)據(jù)之間的堡壘邊界,真正做到數(shù)據(jù)層面的互通、整合、聯(lián)動,實現(xiàn)了數(shù)據(jù)間的無障礙互通。同時,通過非侵入式、無代碼圖形化集中管控,為管理者和使用者提供了高度易用性和低成本的管理運維模式。在“楚天云”的后續(xù)應用中,將通過建設這一數(shù)據(jù)交換樞紐平臺,在省級范圍內建立起一種數(shù)據(jù)大平臺與碎片化應用結合的數(shù)據(jù)生態(tài)系統(tǒng),構建起從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)應用的整套機制,提高數(shù)據(jù)的活躍度和利用率,讓數(shù)據(jù)價值得以真正呈現(xiàn)。目前,建成后的“楚天云”數(shù)據(jù)交換樞紐平臺能夠達到秒級傳輸幾百G的數(shù)據(jù)量,業(yè)務端和數(shù)據(jù)平臺端數(shù)據(jù)幾乎同步,完全能夠滿足管理決策者對于海量數(shù)據(jù)實時交互的需求,使具體業(yè)務場景下的效率提升,縮短決策時間,讓大數(shù)據(jù)價值得以體現(xiàn)。從數(shù)據(jù)融合角度看,“楚天云”案例,在“智慧政務”領域為其他智慧城市項目提供了可參考借鑒的成功實踐。
作為“楚天云”數(shù)據(jù)交換樞紐平臺的建設者之一,翱旗科技定位于數(shù)據(jù)基礎科學研究,并擁有領先自主核心技術,所研發(fā)的產(chǎn)品以通用化為基礎、自動化為實現(xiàn)方式、智能化為目標,在“數(shù)據(jù)采集與融合、數(shù)據(jù)管理、存儲、挖掘與分析、可視化”整個數(shù)據(jù)生命周期中形成了獨有的產(chǎn)業(yè)閉環(huán)。在“楚天云”項目中,翱旗以數(shù)據(jù)融合為核心思路,基于數(shù)據(jù)底層技術,針對任何數(shù)據(jù)類型,通過對數(shù)據(jù)的實時感知、處理和管理等賦能過程,將繁瑣、復雜、高難度、高風險的數(shù)據(jù)需求標準化和組件化,能夠完成對省級多源海量數(shù)據(jù)的融合管理,為“智慧湖北”提供數(shù)據(jù)層面的完全支撐。除了應用于智慧城市項目中,翱旗科技還進一步把數(shù)據(jù)融合技術進行了產(chǎn)品化。據(jù)悉,2017年4月13日,翱旗科技將正式發(fā)布針對大數(shù)據(jù)領域的系列通用化產(chǎn)品,包括數(shù)據(jù)集成交互產(chǎn)品和分布式數(shù)據(jù)庫產(chǎn)品等,能夠把大數(shù)據(jù)領域的系列技術和服務轉化成標準化、通用化的產(chǎn)品,這在國內尚屬首次。
最近幾年,像翱旗這樣的國內外大數(shù)據(jù)技術公司開始紛紛將數(shù)據(jù)處理整合過程中相關技術集合、組合,提升后開發(fā)出專門用于數(shù)據(jù)融合的新工具。應用這些直觀、可視、高效的軟件工具,數(shù)據(jù)準備過程的工效大大提高,在一定程度上解決了數(shù)據(jù)融合的技術瓶頸。2016年Gartner公司數(shù)據(jù)管理和分析軟件工具的評估報告顯示,數(shù)據(jù)融合處理類自我服務式數(shù)據(jù)準備軟件(Self-service Data Preparation)已成為發(fā)展最快的工具之一。伴隨著大數(shù)據(jù)應用需求的日益深入和普及,面向解決數(shù)據(jù)融合問題的通用化技術產(chǎn)品無疑將迎來更多的發(fā)展機會。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓練與驗證損失驟升:機器學習訓練中的異常診斷與解決方案 在機器學習模型訓練過程中,“損失曲線” 是反映模型學習狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11