
數(shù)據(jù)融合的六個基本步驟
數(shù)據(jù)融合:大數(shù)據(jù)分析的瓶頸
數(shù)據(jù)處理新工具使數(shù)據(jù)科學家從數(shù)據(jù)準備的繁瑣工作中解放出來,但如何根據(jù)每個數(shù)據(jù)分析項目量體定制,融合多源數(shù)據(jù)以形成有效的分析數(shù)據(jù)集仍是數(shù)據(jù)科學家必須面對的一個更具挑戰(zhàn)性的瓶頸。
利用互聯(lián)網(wǎng)購物的營銷數(shù)據(jù)來追蹤和勾畫消費行為并以此為據(jù)促銷是大數(shù)據(jù)應用的成功典型案例。有些人已此將大數(shù)據(jù)吹得神乎其神,好像它能成為萬能藥。其實,這只是大數(shù)據(jù)應用中的很小一部分。作為智能決策的支持手段之一,大數(shù)據(jù)在企業(yè)、事業(yè)、政府、社會管理和發(fā)展上的應用是更重要的挑戰(zhàn)。在這里,多源數(shù)據(jù)的融合就成為大數(shù)據(jù)分析中的瓶頸。
每個親身參加過大數(shù)據(jù)項目的數(shù)據(jù)科學家、數(shù)據(jù)分析師、數(shù)據(jù)庫管理員都會告訴你,項目的80%的時間和經(jīng)費花在數(shù)據(jù)的準備工作上。這其中多源數(shù)據(jù)的融合是最耗費資源的任務之一。難怪最近紐約時報驚呼:“數(shù)據(jù)科學家把高達 80%的時間用于數(shù)據(jù)準備而不是用來發(fā)現(xiàn)新的商業(yè)智能”。
傳統(tǒng)的統(tǒng)計分析經(jīng)常是對單一數(shù)據(jù)源(營銷數(shù)據(jù)、行政報表、問卷調(diào)查、人口普查等)進行深入的追蹤和分析。分析人員對數(shù)據(jù)的來源和結構有一定的控制和深層的了解。在大數(shù)據(jù)時代,數(shù)據(jù)源是多樣的、自然形成的、海量的數(shù)據(jù)常常是半結構或無結構的。這就要求數(shù)據(jù)科學家和分析師駕馭多樣、多源的數(shù)據(jù),將它們梳理后進行挖掘和分析。在這個過程中,數(shù)據(jù)融合(data blending)就成為不可或缺的一步。
數(shù)據(jù)融合與數(shù)據(jù)倉庫(Data Warehouse)、數(shù)據(jù)一體化(Data Integration)不同。它的目的不是將一個企業(yè)(Enterprise)或組織的所有數(shù)據(jù)集中在一起并標準化而產(chǎn)生唯一的真相(Single Truth)。它是以產(chǎn)生決策智能為目標將多種數(shù)據(jù)源中的相關數(shù)據(jù)提取、融合、梳理整合成一個分析數(shù)據(jù)集(Analytic Dataset)。這個分析數(shù)據(jù)集是個獨立的和靈活的實體,可隨數(shù)據(jù)源的變化重組、調(diào)整和更新。數(shù)據(jù)融合勝于數(shù)據(jù)倉庫和數(shù)據(jù)一體化的另一點是它能包容多源數(shù)據(jù)。
數(shù)據(jù)融合有六個基本步驟:
連接所需多源數(shù)據(jù)庫并獲取相關數(shù)據(jù),
研究和理解所獲得的數(shù)據(jù),
梳理和清理數(shù)據(jù),
數(shù)據(jù)轉換和建立結構,
數(shù)據(jù)組合,
建立分析數(shù)據(jù)集。
這個過程的每一步都需要數(shù)據(jù)工作者認真細致的思考、辨認、測試、清理、最后產(chǎn)生可信賴、有意義的分析數(shù)據(jù)庫。在過去,這個數(shù)據(jù)準備過程很大程度上是通過手動,十分費時和艱辛。即使有數(shù)據(jù)處理的軟件(如Excel, SAS, SPSS等),每個數(shù)據(jù)工作者也都是自己使用所熟悉的工具,形成個性化的,充其量是半自動的數(shù)據(jù)準備程序。最近幾年,大數(shù)據(jù)技術公司將數(shù)據(jù)處理整合過程中相關技術集合,組合,提升后開發(fā)出專門用于數(shù)據(jù)融合的新工具。應用這些直觀、可視、高效的軟件工具,數(shù)據(jù)準備的過程的工效大大提高,在一定程度上解決了數(shù)據(jù)融合的技術瓶頸。
數(shù)據(jù)融合的另一瓶頸是思維。打個比方,數(shù)據(jù)融合就像水泥的現(xiàn)場合成。水泥制作可以從人工攪拌變?yōu)闄C械合成,提高了工效。但水泥配置仍需要正確的配方;沙、石、混凝土的比例,以及相關化學成份的添加對達到水泥的質(zhì)量標準至關重要。數(shù)據(jù)處理新工具使數(shù)據(jù)科學家從數(shù)據(jù)準備的繁瑣工作中解放了出來,但如何根據(jù)每個數(shù)據(jù)分析項目量體定制,融合多源數(shù)據(jù)以形成有效的分析數(shù)據(jù)集仍是數(shù)據(jù)科學家必須面對的一個更具挑戰(zhàn)性的瓶頸。
多源的數(shù)據(jù)可以歸納為三大類:
一手數(shù)據(jù)(Primary Data),包括企業(yè)或組織直接采集掌控的內(nèi)部運行數(shù)據(jù)和營銷數(shù)據(jù),
二級數(shù)據(jù)(Secondary Data),第三者采集、整理、和提供的二手數(shù)據(jù),如經(jīng)濟指標、人口普查、民意調(diào)查、網(wǎng)路數(shù)據(jù)等,
科學數(shù)據(jù)(Scientific Data),包括科學研究 的成果、指數(shù)、算法、模型等。
這三類數(shù)據(jù)為數(shù)據(jù)為驅動的智能決策提供了不同的觀察角度。一手數(shù)據(jù)具體、靈活、快速積累能夠實時或接近實時地為決策者提供監(jiān)測、追蹤、描述信息。二級數(shù)據(jù)一般是定期公布的數(shù)據(jù),它能提供國家、地區(qū)、行業(yè)的狀況信息,成為數(shù)據(jù)分析中的可比性坐標??茖W數(shù)據(jù)的更新是不定時的,但它代表著目前科研成果,對數(shù)據(jù)分析的建模和算法提供科學基礎。在大數(shù)據(jù)分析項目中,數(shù)據(jù)科學家需要針對具體研究課題同時收集、整理、融合相關的三類數(shù)據(jù)。數(shù)據(jù)科學家的水平就體現(xiàn)在將三類數(shù)據(jù)合理、有效、有意義的融合上。
數(shù)據(jù)融合是目前大數(shù)據(jù)應用和智能決策過程中一個瓶頸。這個挑戰(zhàn)引發(fā)了新一輪大數(shù)據(jù)工具的快速發(fā)展。根據(jù)2016年高德納公司數(shù)據(jù)管理和分析軟件工具的評估報告,自我服務式數(shù)據(jù)準備軟件(Self-service Data Preparation)已成為發(fā)展最快的工具之一。這一發(fā)展趨勢應引起我們的關注。同時,數(shù)據(jù)融合的思維瓶頸仍是所有數(shù)據(jù)科學家必須面對的更高層次的挑戰(zhàn)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03