
1.數(shù)據(jù)分析和數(shù)據(jù)挖掘的概念
數(shù)據(jù)分析(Data Analysis) 是以數(shù)據(jù)為分析對象,以探索數(shù)據(jù)內(nèi)的有用信息為主要途徑,以解決業(yè)務(wù)需求為最終目標,包含業(yè)務(wù)理解、數(shù)據(jù)采集、 數(shù)據(jù)清洗、數(shù)據(jù)探索、數(shù)據(jù)可視化、數(shù)據(jù)建模、模型結(jié)果可視化、分析結(jié)果的業(yè)務(wù)應(yīng)用等步驟在內(nèi)的一整套分析流程。
數(shù)據(jù)挖掘(Data Mining) : 是一個跨學(xué)科的計算機科學(xué)分支,它是用人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)和數(shù)據(jù)庫的交叉方法在相對較大型的數(shù)據(jù)集中發(fā) 現(xiàn)模式的計算過程。
2.數(shù)據(jù)分析的八個層次
數(shù)據(jù)分析的目的:發(fā)現(xiàn)有價值的信息、提出結(jié)論、為業(yè)務(wù)發(fā)展提供輔助決策。它描述了 ”過去發(fā)生了什么“、”現(xiàn)在 正在發(fā)生什么“ 和 “未來可能發(fā)生什么”。根據(jù)分析層次的級別不同,分為常規(guī)報表、即席查詢、多維分析(又稱鉆 取或OLAP)、警報、統(tǒng)計分析、預(yù)報(或者時間序列預(yù)測)、預(yù)測型建模(Predictive Model)和優(yōu)化。
3.大數(shù)據(jù)對傳統(tǒng)小數(shù)據(jù)的拓展及其區(qū)別與聯(lián)系
數(shù)據(jù)上:小數(shù)據(jù)重抽樣,大數(shù)據(jù)重全體。由于傳統(tǒng)小數(shù)據(jù)分析的本質(zhì)是基于樣本推斷總體,因此在分析過程中十分 注重抽樣的科學(xué)性。只有抽樣是科學(xué)的,其推斷結(jié)果才具有科學(xué)意義。而大數(shù)據(jù)雖然不一定是總體,但由于在建模 方法上已經(jīng)更偏向于機器學(xué)習(xí),因此抽樣已經(jīng)不是必要的手段和方法論了。
方法上:小數(shù)據(jù)重實證,大數(shù)據(jù)重優(yōu)化。傳統(tǒng)的小數(shù)據(jù)在方法上更重視實證研究,強調(diào)在相關(guān)理論的前提下建立假設(shè),收集數(shù)據(jù),建立模型并驗證假設(shè)。而大數(shù)據(jù)往往更重視方法論中的自我迭代和自我優(yōu)化過程,可能運算的第一 個結(jié)果與標準答案相差甚遠,但是可以通過與正確答案的不斷校準(往往建立損失函數(shù)),使得模型的精度不斷提高。
目標上:小數(shù)據(jù)重解釋,大數(shù)據(jù)重預(yù)測。小數(shù)據(jù)的分析往往注重歸因分析,探索變量之間的內(nèi)部影響機理,例如究竟什么樣的生活習(xí)慣會提高癌癥的發(fā)病率。但是大數(shù)據(jù)往往關(guān)心的是對于未知對象的預(yù)測,例如判別某個人是否患有癌癥,或者患有癌癥的概率是多少。
4.數(shù)據(jù)分析目標的意義、過程及其本質(zhì)
可以認為數(shù)據(jù)分析涉及到公司運營的方方面面,這包括對企業(yè)部門經(jīng)營情況的評估、內(nèi)部員工的管理、生產(chǎn)流程的監(jiān)管、 產(chǎn)品結(jié)構(gòu)優(yōu)化與新產(chǎn)品開發(fā)、財務(wù)成本優(yōu)化、市場結(jié)構(gòu)的分析和客戶關(guān)系的管理。其中,關(guān)于客戶與市場的數(shù)據(jù)分析是 “重頭戲”。下面以客戶全生命周期管理為例介紹數(shù)據(jù)分析運用場景和挖掘主題,如下圖所示。
1.CRISP-DM 方法論
CRISP-DM方法論將數(shù)據(jù)挖掘項目生命周期分為6個階段,它們分別是業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模、模型評 估和模型發(fā)布,如下圖所示。
下圖呈現(xiàn)了通用數(shù)據(jù)挖掘方法論(CRISP-DM)流程的6個階段。下面簡短地介紹了每個階段的要點。
業(yè)務(wù)理解(Business Understanding) 該初始階段集中在從商業(yè)角度理解項目的目標和要求,通過理論分析轉(zhuǎn)化為數(shù)據(jù)挖掘可操作的問題,制定實現(xiàn)目標的初 步計劃。
數(shù)據(jù)理解(Data Understanding) 數(shù)據(jù)理解階段開始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù)、標明數(shù)據(jù)質(zhì)量問題、探索對數(shù)據(jù)的初步理解、發(fā)覺有趣的子集 以形成對探索關(guān)系的假設(shè)。
數(shù)據(jù)準備(Data Preparation) 數(shù)據(jù)準備階段包括所有從原始的、未加工的數(shù)據(jù)構(gòu)造數(shù)據(jù)挖掘所需信息的活動。數(shù)據(jù)準備任務(wù)可能被實施多次,而且沒 有任何規(guī)定的順序。這些任務(wù)的主要目的是從源系統(tǒng)根據(jù)維度分析的要求,獲取所需要的信息,需要對數(shù)據(jù)進行轉(zhuǎn)換和 清洗。
建模(Modeling) 在此階段,主要是選擇和應(yīng)用各種建模技術(shù),同時對它們的參數(shù)進行校準,以達到最優(yōu)值。通常對同一個數(shù)據(jù)挖掘問題 類型,會有多種建模技術(shù)。一些技術(shù)對數(shù)據(jù)格式有特殊的要求,因此,常常需要返回到數(shù)據(jù)準備階段。
模型評估(Evaluation) 在模型最后發(fā)布前,根據(jù)商業(yè)目標評估模型和檢查建立模型的各個步驟。此階段關(guān)鍵目的是,判斷是否存在一些重要的 商業(yè)問題仍未得到充分考慮。
模型發(fā)布(Deployment) 模型完成后,由模型使用者(客戶)根據(jù)當(dāng)時背景和目標完成情況,決定如何在現(xiàn)場使用模型。比如,在網(wǎng)頁的實時個 人化中或營銷數(shù)據(jù)的重復(fù)評分中。
2.SEMMA 方法論
SAS公司的數(shù)據(jù)挖掘項目實施方法論,對CRISP-DM方法中的數(shù)據(jù)準備和建模環(huán)節(jié)進行了拓展,被稱為SEMMA方法, 如下圖所示。
3.5個步驟中的主要任務(wù),如下圖所示。
數(shù)據(jù)整理
涉及數(shù)據(jù)采集、數(shù)據(jù)合并與抽樣的操作,目的是為了構(gòu)造分析用到的數(shù)據(jù)。分析人員根據(jù)維度分析獲得的結(jié)果作為整理 數(shù)據(jù)的依據(jù),將散落在公司內(nèi)部與外部的數(shù)據(jù)進行整合。
樣本探索
這個步驟的主要任務(wù)是對數(shù)據(jù)質(zhì)量的探索。變量質(zhì)量方面涉及錯誤值(如:年齡=-30)、恰當(dāng)性(客戶的某些業(yè)務(wù)指標 為缺失值,實際上是沒有這個業(yè)務(wù),值應(yīng)該為“0”)、缺失值(沒有客戶的收入信息)、一致性(收入單位為人民幣, 而支出單位為美元)、平穩(wěn)性(某些數(shù)據(jù)的均值變化過于劇烈)、重復(fù)值(相同的交易被記錄兩次)和及時性(銀行客 戶的財務(wù)數(shù)據(jù)更新的滯后時長)等方面。這部分的探索主要解決變量是錯誤時是否可以修改、是否可以使用的問題。
變量修改
根據(jù)變量探索的結(jié)論,需要對數(shù)據(jù)質(zhì)量問題和變量分布情況分別作變量修改。數(shù)據(jù)質(zhì)量問題的修改涉及改正錯誤編碼、 缺失值填補、單位統(tǒng)一等操作。變量分布情況的修改涉及函數(shù)轉(zhuǎn)換和標準化方法,具體的修改方法需要與后續(xù)的統(tǒng)計建 模方法相結(jié)合。
建模 根據(jù)分析的目的選取合適的模型,這部分內(nèi)容在“數(shù)據(jù)分析方法分類介紹”已經(jīng)作了詳細的闡述,這里不再贅述。
模型檢驗 這里指模型的樣本內(nèi)驗證,即使用歷史數(shù)據(jù)對模型表現(xiàn)的優(yōu)劣進行評估。比如,對有監(jiān)督學(xué)習(xí)會使用ROC曲線和提升度 等技術(shù)指標評估模型的預(yù)測能力。
數(shù)據(jù)分析中不同人員的角色與職責(zé)
業(yè)務(wù)問題是需求,最終需要轉(zhuǎn)換成統(tǒng)計或數(shù)據(jù)挖掘等問題,用數(shù)據(jù)分析的思路來解決,因此數(shù)據(jù)分析師在業(yè)務(wù)與數(shù)據(jù)間 起到協(xié)調(diào)作用,是業(yè)務(wù)問題能否成功轉(zhuǎn)換成統(tǒng)計問題的關(guān)鍵。通常來說,業(yè)務(wù)問題需要一個或多個字段來表達,這些字 段以什么形式出現(xiàn)(如測量級別),因為字段的形式會決定選擇的方法,而每種方法又用于解決特定的需求,此外由于 模型對業(yè)務(wù)人員或企業(yè)高管來說可能過于專業(yè),因此需要將模型輸出通俗的表達出來。所以協(xié)調(diào)者、數(shù)據(jù)分析師、報告 人的角色,決定了數(shù)據(jù)分析師是一名(精通數(shù)理和軟件的)綜合型人才。
1.公司營銷部門每月例會報告的經(jīng)營指標匯總,屬于下列哪一類數(shù)據(jù)分析?
A. 客戶行為的數(shù)據(jù)挖掘報告
B. 描述性數(shù)據(jù)分析報告
C. 產(chǎn)品和行為傾向報告
D. 以上都不對
答案:B 解析:按照慣例經(jīng)營指標匯總,通常是報告業(yè)績指標的數(shù)量、金額、百分比或排名等信息,這類 分析多數(shù)歸屬于描述性數(shù)據(jù)分析,而且是單變量分析的內(nèi)容。AC項涉及行為特點和商品特征的關(guān) 系,屬于多變量分析的內(nèi)容。
2.以下哪些內(nèi)容包含在數(shù)據(jù)分析層次級別中?
A. 即席查詢
B. 多維分析(又稱為鉆取或者OLAP)
C. 統(tǒng)計分析與警報
D. 與業(yè)務(wù)人員協(xié)商知識點
答案:ABC 解析:考察數(shù)據(jù)分析的八個層次,需要在理解的基礎(chǔ)上加以記憶。
3.統(tǒng)計模型主要用于解決哪幾類問題?
A. 預(yù)測分類問題
B. OLAP分析問題
C. 相關(guān)分析
D. 市場細分問題
答案:ACD 解析:A項、C項和D項是統(tǒng)計模型的典型問題,但OLAP分析問題并不是統(tǒng)計模型。
4.下列關(guān)于數(shù)據(jù)挖掘流程表達正確的一項是:
A. 方法論CRISP-DM與SEMMA是業(yè)內(nèi)公認的權(quán)威流程,嚴格按照步驟做數(shù)據(jù)分析總不會出錯的
B. CRISP-DM(譯為“跨行業(yè)”數(shù)據(jù)挖掘)在任何數(shù)據(jù)分析行業(yè)中均適用
C. SEMMA方法論是對CRISP-DM方法中的數(shù)據(jù)準備和建模環(huán)節(jié)進行了拓展
D. 由于數(shù)據(jù)比較整潔,所以可以不需要再做數(shù)據(jù)預(yù)處理,直接從建模開始
答案:C 解析:AB兩項都犯同一類錯誤,就是過于迷信方法論的共識性,D項中數(shù)據(jù)分析的一般性 描述是很重要的預(yù)分析過程,不僅如此,模型對于數(shù)據(jù)的要求也很高,樣本探索、變量整理等預(yù)處理工作都不可省去。
5.關(guān)于客戶生命周期管理,下列哪一項不屬于對既有高價值客戶的分析內(nèi)容?
A. 行為信用評分
B. 初始信用評分
C. 產(chǎn)品精準營銷
D. 客戶留存管理
答案:B 解析:高價值客戶屬于企業(yè)的既有客戶,而初始信用評分屬于對潛在響應(yīng)客戶的 策略分析。
6.統(tǒng)計模型主要用于解決哪幾類問題?
A.預(yù)測分類問題
B.OLAP分析問題
D.市場細分問題
答案:ACD 解析:A項、C項和D項是統(tǒng)計模型的典型問題,但OLAP分析問題并不屬于統(tǒng)計模型。
點擊CDA題庫鏈接,獲取免費版CDA題庫入口,??荚図樌?,快速拿證!
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03