
1數據挖掘
1.1數據挖掘與傳統數據分析的區(qū)別
數據挖掘與傳統的數據分析,如查詢、報表、聯機應用分析的本質區(qū)別是數據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現知識。數據挖掘所得到的信息應具有先前未知、有效和實用三個特征。即數據挖掘是要發(fā)現那些不能靠直覺發(fā)現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越出乎意料就可能越有價值。而傳統的數據分析趨勢為從大型數據庫抓取所需數據并使用專屬計算機分析軟件。因此數據挖掘與傳統分析方法有很大的不同。
1.2數據挖掘的應用價值
(1)分類:首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對于沒有分類的數據進行分類。(2)估計:與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類是確定數目的,估計是不確定的。(3)聚類:是對記錄分組。聚類和分類的區(qū)別是聚集不依賴于預先定義好的類,不需要訓練集。中國移動采用先進的數據挖掘工具馬克威分析系統,對用戶wap上網的行為進行聚類分析,通過客戶分群,進行精確營銷。(4)關聯規(guī)則和序列模式的發(fā)現:關聯是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯系。例如:每天購買啤酒的人也有可能購買香煙,比重有多大,可以通過關聯的支持度和可信度來描述。與關聯不同,序列是一種縱向的聯系。例如:今天銀行調整利率,明天股市的變化。(5)預測:通過分類或估值得出模型,該模型用于對未知變量的預言。(6)偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因。除此之外,在客戶分析,運籌和企業(yè)資源的優(yōu)化,異常檢測,企業(yè)分析模型的管理的方面都有廣泛使用價值。
2數據倉庫
2.1數據倉庫的特征
(1)面向主題(Subject Oriented)的數據集合。數據倉庫圍繞一些主題如顧客、供應商、產品和銷售來組織。數據倉庫關注決策者的數據建模與分析,而不是組織機構的日常操作和事務處理。(2)集成(Integrated)的數據集合。數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業(yè)的一致的全局信息。(3)時變(Time Variant)的數據集合。數據存儲從歷史的角度提供信息。數據倉庫中的數據通常包含歷史信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預測。(4)非易失(Nonvolatile)的數據集合。數據倉庫的數據主要供企業(yè)決策分析之用,所涉及的數據操作主要是數據查詢,修改和刪除操作很少,通常只需要定期的加載、刷新。數據倉庫里的數據通常只需要兩種操作:初始化載入和數據訪問,因此其數據相對穩(wěn)定,極少或根本不更新。[page] 2.2數據倉庫的類型
數據倉庫的類型根據數據倉庫所管理的數據類型和它們所解決的企業(yè)問題范圍,一般可將數據倉庫分為下列3種類型:企業(yè)數據倉庫(EDW)、操作型數據庫(ODS)和數據集市(Data Marts)。①企業(yè)數據倉庫為通用數據倉庫,它既含有大量詳細的數據,也含有大量累贅的或聚集的數據,這些數據具有不易改變性和面向歷史性。此種數據倉庫被用來進行涵蓋多種企業(yè)領域上的戰(zhàn)略或戰(zhàn)術上的決策。②操作型數據庫既可以被用來針對工作數據做決策支持,又可用做將數據加載到數據倉庫時的過渡區(qū)域。與EDW相比,ODS是面向主題和面向綜合的,易變的,僅含有目前的、詳細的數據,不含有累計的、歷史性的數據。③數據集市是為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據。幾組數據集市可以組成一個EDW。
2.3數據倉庫與傳統數據庫的比較
二者的聯系既有聯系又有區(qū)別。數據倉庫的出現,并不是要取代數據庫。目前,大部分數據倉庫還是用關系數據庫管理系統來管理的。可以說,數據庫、數據倉庫相輔相成、各有千秋。二者的區(qū)別可以從以下幾個方面進行比較:
(1)出發(fā)點不同:數據庫是面向事務的設計;數據倉庫是面向主題設計的。(2)存儲的數據不同:數據庫一般存儲在線交易數據;數據倉庫存儲的一般是歷史數據。(3)設計規(guī)則不同:數據庫設計是盡量避免冗余,一般采用符合范式的規(guī)則來設計;數據倉庫在設計是有意引入冗余,采用反范式的方式來設計。(4)提供的功能不同:數據庫是為捕獲數據而設計,數據倉庫是為分析數據而設計。(5)基本元素不同:數據庫的基本元素是事實表,數據倉庫的基本元素是維度表。(6)容量不同:數據庫在基本容量上要比數據倉庫小的多。(7)服務對象不同:數據庫是為了高效的事務處理而設計的,服務對象為企業(yè)業(yè)務處理方面的工作人員;數據倉庫是為了分析數據進行決策而設計的,服務對象為企業(yè)高層決策人員。
3數據倉庫與數據挖掘的關系
當然為了數據挖掘你也不必非得建立一個數據倉庫,數據倉庫不是必需的。建立一個巨大的數據倉庫,把各個不同源的數據統一在一起,解決所有的數據沖突問題,然后把所有的數據導到一個數據倉庫內,是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。只是為了數據挖掘,你可以把一個或幾個事務數據庫導到一個只讀的數據庫中,就把它當作數據集市,然后在他上面進行數據挖掘。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統計模型的核心目的:從數據解讀到決策支撐的價值導向 統計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數據分析師:商業(yè)數據分析實踐的落地者與價值創(chuàng)造者 商業(yè)數據分析的價值,最終要在 “實踐” 中體現 —— 脫離業(yè)務場景的分 ...
2025-09-10機器學習解決實際問題的核心關鍵:從業(yè)務到落地的全流程解析 在人工智能技術落地的浪潮中,機器學習作為核心工具,已廣泛應用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價值解析 在 SPSS(Statistical Product and Service Solutions,統計產品與服務解決方案 ...
2025-09-09