
數(shù)據(jù)倉庫在異構數(shù)據(jù)庫集成中的應用
1、引言
由于企業(yè)信息系統(tǒng)是逐步建立起來的,因此基于不同時期的計算機技術而建立起來的各領域信息系統(tǒng)采用了不同的數(shù)據(jù)庫系統(tǒng),且自成一體。并以不同的數(shù)據(jù)模式描述數(shù)據(jù),使用不同的語言描述數(shù)據(jù)存儲和操縱事務,它們無法通過計算機網(wǎng)絡實現(xiàn)系統(tǒng)間的信息交換和結合,因此企業(yè)信息系統(tǒng)中形成了多個異構的、分散的數(shù)據(jù)庫系統(tǒng),并出現(xiàn)了大量的信息孤島。在現(xiàn)有的異構數(shù)據(jù)庫系統(tǒng)的基礎上,為了有效地實現(xiàn)各個數(shù)據(jù)庫系統(tǒng)之間的信息共享、傳遞和反饋,解決企業(yè)信息系統(tǒng)中的信息孤島現(xiàn)象,我們有必要對數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)進行再加工,集成異構數(shù)據(jù)庫系統(tǒng),形成綜合的、面向分析的操作平臺,從而更好地支持企業(yè)的決策分析。數(shù)據(jù)倉庫技術就是解決異構數(shù)據(jù)庫信息集成的有效方案,因為數(shù)據(jù)倉庫可以從異構的數(shù)據(jù)庫系統(tǒng)中使用統(tǒng)一的全局模式來描述數(shù)據(jù),并將這些數(shù)據(jù)集成在數(shù)據(jù)倉庫中,用戶可以通過數(shù)據(jù)倉庫提供的統(tǒng)一的數(shù)據(jù)接口進行統(tǒng)計分析,最終支持決策者的決策過程。
2、數(shù)據(jù)倉庫技術
數(shù)據(jù)倉庫是面向主題的、集成的、隨時間變化的、非易失性的數(shù)據(jù)集合,它用于支持管理層的決策過程。數(shù)據(jù)倉庫的創(chuàng)建和使用都是圍繞著主題的,數(shù)據(jù)倉庫中的數(shù)據(jù)不是將業(yè)務處理系統(tǒng)中的數(shù)據(jù)簡單集合,而是對各種源數(shù)據(jù)進行抽取、篩選、清理、綜合而得到的數(shù)據(jù)集合目。數(shù)據(jù)倉庫中所存儲的數(shù)據(jù)不經(jīng)常進行更新處理,它主要用于查詢和分析。與傳統(tǒng)的數(shù)據(jù)庫相比,數(shù)據(jù)倉庫的主要特點表現(xiàn)在:集成了面向主題的綜合數(shù)據(jù)、帶有數(shù)據(jù)集成性質、數(shù)據(jù)不常更新、數(shù)據(jù)是隨時間不斷加載的。
3、異構數(shù)據(jù)庫集成的實現(xiàn)方案
數(shù)據(jù)倉庫技術作為異構數(shù)據(jù)庫集成的解決方案,不僅可以通過數(shù)據(jù)抽取和轉移工具將位于不同地域、不同操作系統(tǒng)平臺、不同數(shù)據(jù)結構的數(shù)據(jù)按照一定的數(shù)據(jù)模式集成在一起,同時能夠保證數(shù)據(jù)的一致性。下面將給出異構數(shù)據(jù)庫集成的解決方案。
3.1異構數(shù)據(jù)庫的集成方法
該方法的基本思想是:在原有的不同領域信息系統(tǒng)的基礎上,按照決策者的決策需求確定查詢主題,定義基于數(shù)據(jù)倉庫的新的數(shù)據(jù)全局模式,從異構數(shù)據(jù)庫中通過數(shù)據(jù)抽取和轉換工具將數(shù)據(jù)抽取出來,以一定的格式裝載到數(shù)據(jù)倉庫中。同時按照決策者和用戶的查詢需求編寫應用程序,最后以查詢報告或表格形式反饋給決策者或用戶。
3.2定義新的數(shù)據(jù)模型
由于數(shù)據(jù)倉庫注重的是數(shù)據(jù)查詢,設計的目的是使用戶能夠盡可能地直接訪問到數(shù)據(jù),因此數(shù)據(jù)是按照決策分析的主題來組織的,每個主題對應一個宏觀的分析領域。因此數(shù)據(jù)的概念模型是多維數(shù)據(jù)模型,這樣可以用多維分析的方法從多角度、多層次對數(shù)據(jù)進行統(tǒng)計分析。
為實現(xiàn)異構數(shù)據(jù)庫的數(shù)據(jù)集成, 須首先通過數(shù)據(jù)的抽取和轉換工具將位于不同操作系統(tǒng)平臺、不同數(shù)據(jù)組織形式的數(shù)據(jù)按照 定的數(shù)據(jù)模型集成到數(shù)據(jù)倉庫中,其目的就是保證數(shù)據(jù)倉庫中數(shù)據(jù)的一致性。
[page] (1)抽取
為了將來自不同數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)集成到數(shù)據(jù)倉庫中,必須首先從外部數(shù)據(jù)庫將有關數(shù)據(jù)抽取出來。數(shù)據(jù)的抽取是數(shù)據(jù)倉庫成功的關鍵。為了將數(shù)據(jù)抽取出來,我們必須按照已確定的新的數(shù)據(jù)模型來抽取數(shù)據(jù),因為在新的數(shù)據(jù)模型中描述了哪些數(shù)據(jù)需要抽取。
在此基礎上我們需要編寫數(shù)據(jù)的抽取程序。該抽取程序的基本功能就是利用OBDC技術訪問異構數(shù)據(jù)庫并將不同數(shù)據(jù)結構的數(shù)據(jù)抽取出來。具體的實現(xiàn)方法是:
① 利用ODBC數(shù)據(jù)源管理器根據(jù)不同的數(shù)據(jù)庫系統(tǒng)創(chuàng)建相應的數(shù)據(jù)源;
② 在相應的抽取程序中根據(jù)該數(shù)據(jù)源讀取源數(shù)據(jù)庫中的數(shù)據(jù)。
(2)轉換
從源數(shù)據(jù)庫中抽取出來的數(shù)據(jù)必須依據(jù)事先定義好的標準數(shù)據(jù)格式進行數(shù)據(jù)的轉換。由于企業(yè)信息系統(tǒng)中同一個數(shù)據(jù)可能存放在不同子系統(tǒng)的數(shù)據(jù)庫中,這些數(shù)據(jù)庫之間是分散和異構的,因此就會出現(xiàn)數(shù)據(jù)名稱、數(shù)據(jù)單位、數(shù)據(jù)類型甚至數(shù)據(jù)值不一致的情況,如果這些數(shù)據(jù)被抽取到數(shù)據(jù)倉庫中,必然會造成數(shù)據(jù)的不真實性,為此有必要對這些抽取的數(shù)據(jù)進行徹底地轉換。
數(shù)據(jù)轉換的基本思想是:首先建立數(shù)據(jù)轉換規(guī)則集和元數(shù)據(jù)庫。抽取出來的數(shù)據(jù)必須按照數(shù)據(jù)轉換規(guī)則集和元數(shù)據(jù)庫中定義的標準對數(shù)據(jù)進行轉換或修補以適應新標準,然后才能將數(shù)據(jù)裝載到數(shù)據(jù)倉庫中。數(shù)據(jù)轉換規(guī)則集的表結構見表1。
元數(shù)據(jù)庫存放的是關于數(shù)據(jù)的數(shù)據(jù),即對抽取出來的數(shù)據(jù)的描述與說明,是數(shù)據(jù)轉換的一個重要依據(jù),數(shù)據(jù)被抽取出來后,如果在元數(shù)據(jù)庫中存在該數(shù)據(jù),則要按照元數(shù)據(jù)中定義的標準數(shù)據(jù)格式處理數(shù)據(jù)。否則就要籌建新的數(shù)據(jù)標準并存儲到元數(shù)據(jù)庫中。
4、結束語
采用數(shù)據(jù)倉庫技術解決異構數(shù)據(jù)庫的集成問題應該是一個好的解決方案。因為ODBC技術為訪問異構數(shù)據(jù)庫提供了統(tǒng)一的方式。同時也為各異構數(shù)據(jù)庫之間的協(xié)作和多個異構數(shù)據(jù)庫之間的操作提供了系統(tǒng)平臺;而數(shù)據(jù)倉庫的建立,不僅實現(xiàn)了企業(yè)信息系統(tǒng)中信息的集成,同時為充分利用這些綜合數(shù)據(jù)、歷史數(shù)據(jù),為企業(yè)決策系統(tǒng)提供信息源打下了良好的基礎。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03