
大數(shù)據(jù):釋放應用價值,數(shù)據(jù)融合先行
我們所處的社會已經(jīng)從IT(Information Technology)時代全面跨入DT(Data Technology)時代,數(shù)據(jù)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為關鍵的生產(chǎn)要素之一。從Gartner發(fā)布的大數(shù)據(jù)技術成熟度曲線圖中可以看出,大數(shù)據(jù)已不在是停留在概念層面,而是正式進入了產(chǎn)業(yè)化應用進程中。據(jù)統(tǒng)計,僅全球交通、教育、消費、電力、能源、健康與金融等7大重點領域的大數(shù)據(jù)應用潛在價值就在3.2萬億-5.4萬億元左右,大數(shù)據(jù)潛在發(fā)展空間巨大。
然而,從中國信息通信研究院的另一組數(shù)據(jù)表明,國內(nèi)實際的應用情況尚有差距,據(jù)統(tǒng)計有44%的企業(yè)還沒有大數(shù)據(jù)部署和應用,24%的部署了但未實現(xiàn)大數(shù)據(jù)應用,只有1/3的企業(yè)初步應用了大數(shù)據(jù),是什么制約了大數(shù)據(jù)的快速普及之路? 中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會理事長鄔賀銓院士在2017大數(shù)據(jù)產(chǎn)業(yè)峰會上表示:"數(shù)據(jù)資源的流動性和可獲取性是大數(shù)據(jù)應用和產(chǎn)業(yè)發(fā)展的基礎,直接關系到大數(shù)據(jù)價值的實現(xiàn)情況。"
傳統(tǒng)的統(tǒng)計分析經(jīng)常是對單一數(shù)據(jù)源(營銷數(shù)據(jù)、行政報表、問卷調(diào)查、人口普查等)進行深入的追蹤和分析。分析人員對數(shù)據(jù)的來源和結構有一定的控制和深層的了解。但在大數(shù)據(jù)時代,數(shù)據(jù)源是多樣的、多種形態(tài)的,海量的數(shù)據(jù)常常是半結構或無結構的。從數(shù)據(jù)獲取到最終的數(shù)據(jù)價值呈現(xiàn)要經(jīng)歷數(shù)據(jù)從源頭接入、處理、存儲計算到分析挖掘、應用、服務的完整數(shù)據(jù)生命周期。這就要求數(shù)據(jù)科學家和分析師駕馭多樣、多源的數(shù)據(jù),將它們梳理后進行挖掘和分析。在這個過程中,數(shù)據(jù)融合就成為不可或缺的一步。
所謂數(shù)據(jù)融合,是以產(chǎn)生決策智能為目標將多種數(shù)據(jù)源中的相關數(shù)據(jù)提取、融合、梳理整合成一個分析數(shù)據(jù)集合,實現(xiàn)數(shù)據(jù)資源的流動和易獲取,從而支撐多樣并呈碎片化的商業(yè)智能服務使用。來自賽迪智庫的調(diào)研,現(xiàn)實中實施的大數(shù)據(jù)項目至少有80%的時間和經(jīng)費花在了數(shù)據(jù)準備上,其中多源數(shù)據(jù)的融合是最耗費資源的任務之一。紐約時報也曾報道: “數(shù)據(jù)科學家把高達80%的時間用于數(shù)據(jù)準備而不是用來發(fā)現(xiàn)新的商業(yè)智能”。
伴隨著人們對數(shù)據(jù)應用價值的不斷渴求,區(qū)別于傳統(tǒng)數(shù)據(jù)統(tǒng)計的需求,用戶對大數(shù)據(jù)的數(shù)據(jù)準備有著更高的要求:
第一, 多源。除了眾所周知的數(shù)據(jù)開放度的影響之外,多源數(shù)據(jù)融合的另一個瓶頸在于如何打破原有垂直建設系統(tǒng)間的信息孤島、構造統(tǒng)一的整體的數(shù)據(jù)平臺,把分散但相互有關聯(lián)的數(shù)據(jù)以整體的視角看待和思考并進行管理,并且通過這樣的統(tǒng)一平臺,對上層碎片化的或需要快速迭代的大數(shù)據(jù)應用進行有效、良好的支撐。比如在數(shù)據(jù)抓取中,要充分考慮傳統(tǒng)企業(yè)已經(jīng)具備大量系統(tǒng)存在的情況,而對于這些系統(tǒng)在不干擾的情況下,如何能夠把數(shù)據(jù)準確、高效、實時的拿得出來,快速認清企業(yè)有什么樣的數(shù)據(jù)原材料。這在非常多的尤其是政府、大型企業(yè)里面是個很大的挑戰(zhàn)。另外,數(shù)據(jù)進來之后,因為系統(tǒng)和系統(tǒng)之間的建設時間是不同的,數(shù)據(jù)的表現(xiàn)形態(tài)也是各異的,我們要對這些數(shù)據(jù)進行橫向之間的處理并且能把這些數(shù)據(jù)關聯(lián)起來,讓分散的數(shù)據(jù)形成一個整體,這都是數(shù)據(jù)融合過程中所要解決的問題。
第二, 實時。萬物互聯(lián)的趨勢下,人們不僅對于數(shù)據(jù)的數(shù)量,也對數(shù)據(jù)的時效性提出了愈來愈高的要求,有一組數(shù)據(jù)表明12%的管理者都能認識到數(shù)據(jù)對于企業(yè)或組織的巨大影響,然而,53%的管理者認為太多的核心信息不能及時獲得。特別是在某些連續(xù)性業(yè)務運轉(zhuǎn)的應用場景下,比如通信、金融、安全領域等,需要通過大數(shù)據(jù)技術對業(yè)務數(shù)據(jù)進行實時同步的收集、整合與挖掘分析,用以指導甚至是隨時根據(jù)數(shù)據(jù)變化而調(diào)整業(yè)務策略,而不是把業(yè)務系統(tǒng)停掉先分析再作出決策。對未來的預測遠比做事后諸葛更能體現(xiàn)大數(shù)據(jù)的潛在價值。
第三, 海量。在DT時代,數(shù)據(jù)量急劇爆發(fā),據(jù)IDC預測,目前全球每年數(shù)據(jù)的生產(chǎn)量是 8ZB( 1ZB=1024EB),2020 年將達到 40ZB。我們已經(jīng)從“傳統(tǒng)互聯(lián)網(wǎng)”時代的“線上數(shù)據(jù)化”階段和“互聯(lián)網(wǎng)+”時代的“線下數(shù)據(jù)化”階段,快速進入了“數(shù)據(jù)流通時代”,即線上線下全產(chǎn)業(yè)實現(xiàn)數(shù)據(jù)化,數(shù)據(jù)在產(chǎn)業(yè)鏈上下游甚至跨產(chǎn)業(yè)流通并創(chuàng)造價值的階段。在這一過程中,目前數(shù)據(jù)的生產(chǎn)速度和能力遠遠大于我們對其使用和價值變現(xiàn)的速度和能力。對數(shù)據(jù)業(yè)務價值的高期望值和落后的數(shù)據(jù)集成方案之間的矛盾日漸突出?;ヂ?lián)網(wǎng)、物聯(lián)網(wǎng)、云計算,我們的業(yè)務系統(tǒng)每時每刻都在產(chǎn)生著大量的不同來源的數(shù)據(jù),如何及時、有效、全面的捕獲到這些數(shù)據(jù)是另外一個會直接影響數(shù)據(jù)價值體現(xiàn)的關鍵因素。
多源、實時和海量,是大部分大數(shù)據(jù)應用中的普遍性要求,特別是在智慧城市等具有跨行業(yè)、跨系統(tǒng)、跨職能整合需要的信息化項目中,科學高效的數(shù)據(jù)融合方案至關重要。前不久,在“2017大數(shù)據(jù)產(chǎn)業(yè)峰會”上,湖北省升級政務云“楚天云”項目就憑借其創(chuàng)新的數(shù)據(jù)融合模式榮膺“2017年度政務大數(shù)據(jù)優(yōu)先應用案例獎”。作為“智慧湖北”建設的核心工程,“楚天云”是目前國內(nèi)安全等級最高、規(guī)模最大、技術領先的省級政務云之一,承載了湖北省的52個省直部門的330個應用系統(tǒng)的各類海量政府核心數(shù)據(jù)。
在“楚天云”建設之初面對數(shù)量龐大的多個系統(tǒng),數(shù)據(jù)的流通和融合面臨巨大的難題。在經(jīng)過充分的調(diào)研和技術對比后,“楚天云”選擇了數(shù)據(jù)交換樞紐平臺的思路,采用目前國內(nèi)領先的大數(shù)據(jù)技術廠商—翱旗科技的R7系列產(chǎn)品技術,把數(shù)據(jù)交換平臺架設于楚天云自身的IaaS云平臺之上,通過數(shù)據(jù)集成交互技術和數(shù)據(jù)資產(chǎn)管理技術,消除不同操作平臺、不同類型數(shù)據(jù)庫、不同結構數(shù)據(jù)之間的堡壘邊界,真正做到數(shù)據(jù)層面的互通、整合、聯(lián)動,實現(xiàn)了數(shù)據(jù)間的無障礙互通。同時,通過非侵入式、無代碼圖形化集中管控,為管理者和使用者提供了高度易用性和低成本的管理運維模式。在“楚天云”的后續(xù)應用中,將通過建設這一數(shù)據(jù)交換樞紐平臺,在省級范圍內(nèi)建立起一種數(shù)據(jù)大平臺與碎片化應用結合的數(shù)據(jù)生態(tài)系統(tǒng),構建起從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)應用的整套機制,提高數(shù)據(jù)的活躍度和利用率,讓數(shù)據(jù)價值得以真正呈現(xiàn)。目前,建成后的“楚天云”數(shù)據(jù)交換樞紐平臺能夠達到秒級傳輸幾百G的數(shù)據(jù)量,業(yè)務端和數(shù)據(jù)平臺端數(shù)據(jù)幾乎同步,完全能夠滿足管理決策者對于海量數(shù)據(jù)實時交互的需求,使具體業(yè)務場景下的效率提升,縮短決策時間,讓大數(shù)據(jù)價值得以體現(xiàn)。從數(shù)據(jù)融合角度看,“楚天云”案例,在“智慧政務”領域為其他智慧城市項目提供了可參考借鑒的成功實踐。
作為“楚天云”數(shù)據(jù)交換樞紐平臺的建設者之一,翱旗科技定位于數(shù)據(jù)基礎科學研究,并擁有領先自主核心技術,所研發(fā)的產(chǎn)品以通用化為基礎、自動化為實現(xiàn)方式、智能化為目標,在“數(shù)據(jù)采集與融合、數(shù)據(jù)管理、存儲、挖掘與分析、可視化”整個數(shù)據(jù)生命周期中形成了獨有的產(chǎn)業(yè)閉環(huán)。在“楚天云”項目中,翱旗以數(shù)據(jù)融合為核心思路,基于數(shù)據(jù)底層技術,針對任何數(shù)據(jù)類型,通過對數(shù)據(jù)的實時感知、處理和管理等賦能過程,將繁瑣、復雜、高難度、高風險的數(shù)據(jù)需求標準化和組件化,能夠完成對省級多源海量數(shù)據(jù)的融合管理,為“智慧湖北”提供數(shù)據(jù)層面的完全支撐。除了應用于智慧城市項目中,翱旗科技還進一步把數(shù)據(jù)融合技術進行了產(chǎn)品化。據(jù)悉,2017年4月13日,翱旗科技將正式發(fā)布針對大數(shù)據(jù)領域的系列通用化產(chǎn)品,包括數(shù)據(jù)集成交互產(chǎn)品和分布式數(shù)據(jù)庫產(chǎn)品等,能夠把大數(shù)據(jù)領域的系列技術和服務轉(zhuǎn)化成標準化、通用化的產(chǎn)品,這在國內(nèi)尚屬首次。
最近幾年,像翱旗這樣的國內(nèi)外大數(shù)據(jù)技術公司開始紛紛將數(shù)據(jù)處理整合過程中相關技術集合、組合,提升后開發(fā)出專門用于數(shù)據(jù)融合的新工具。應用這些直觀、可視、高效的軟件工具,數(shù)據(jù)準備過程的工效大大提高,在一定程度上解決了數(shù)據(jù)融合的技術瓶頸。2016年Gartner公司數(shù)據(jù)管理和分析軟件工具的評估報告顯示,數(shù)據(jù)融合處理類自我服務式數(shù)據(jù)準備軟件(Self-service Data Preparation)已成為發(fā)展最快的工具之一。伴隨著大數(shù)據(jù)應用需求的日益深入和普及,面向解決數(shù)據(jù)融合問題的通用化技術產(chǎn)品無疑將迎來更多的發(fā)展機會。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導白皮書) 發(fā)布機構:CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07