
數(shù)據(jù)分析方法論是什么
數(shù)據(jù)分析方法論重點(diǎn)包括兩塊,一塊是統(tǒng)計分析方法論:描述統(tǒng)計、假設(shè)檢驗(yàn)、相關(guān)分析、方差分析、回歸分析、聚類分析、判別分析、主成分與因子分析、時間序列分析、決策樹等;
一塊是營銷管理常用分析方法論:SWOT、4P、PEST、SMART、5W2H、User behavior等。
一、統(tǒng)計分析方法論:
1. 描述統(tǒng)計(Descriptive statistics):描述統(tǒng)計是通過圖表或數(shù)學(xué)方法,對數(shù)據(jù)資料進(jìn)行整理、分析,并對數(shù)據(jù)的分布狀態(tài)、數(shù)字特征和隨機(jī)變量之間關(guān)系進(jìn)行估計和描述的方 法。目的是描述數(shù)據(jù)特征,找出數(shù)據(jù)的基本規(guī)律。描述統(tǒng)計分為集中趨勢分析和離中趨勢分析和相關(guān)分析三大部分。
(1)數(shù)據(jù)的頻數(shù)分析:在數(shù)據(jù)的預(yù)處理部分,我們曾經(jīng)提到利用頻數(shù)分析和交叉頻數(shù)分析來檢驗(yàn)異常值。此外,頻數(shù)分析也可以發(fā)現(xiàn)一些統(tǒng)計規(guī)律。比如說,收入低的被調(diào)查者用戶滿意度比收入高的被調(diào)查者高,或者女性的用戶滿意度比男性低等。不過這些規(guī)律只是表面的特征,在后面的分析中還要經(jīng)過檢驗(yàn)。
(2)數(shù)據(jù)的集中趨勢分析:數(shù)據(jù)的集中趨勢分析是用來反映數(shù)據(jù)的一般水平,常用的指標(biāo)有平均值、中位數(shù)和眾數(shù)等。各指標(biāo)的具體意義如下:
平均值:是衡量數(shù)據(jù)的中心位置的重要指標(biāo),反映了一些數(shù)據(jù)必然性的特點(diǎn),包括算術(shù)平均值、加權(quán)算術(shù)平均值、調(diào)和平均值和幾何平均值。
中位數(shù):是另外一種反映數(shù)據(jù)的中心位置的指標(biāo),其確定方法是將所有數(shù)據(jù)以由小到大的順序排列,位于中央的數(shù)據(jù)值就是中位數(shù)。
眾數(shù):是指在數(shù)據(jù)中發(fā)生頻率最高的數(shù)據(jù)值。
如果各個數(shù)據(jù)之間的差異程度較小,用平均值就有較好的代表性;而如果數(shù)據(jù)之間的差異程度較大,特別是有個別的極端值的情況,用中位數(shù)或眾數(shù)有較好的代表性。
(3)數(shù)據(jù)的離散程度分析:數(shù)據(jù)的離散程度分析主要是用來反映數(shù)據(jù)之間的差異程度,常用的指標(biāo)有方差和標(biāo)準(zhǔn)差。方差是標(biāo)準(zhǔn)差的平方,根據(jù)不同的數(shù)據(jù)類型有不同的計算方法。
(4)數(shù)據(jù)的分布:在 統(tǒng)計分析中,通常要假設(shè)樣本的分布屬于正態(tài)分布,數(shù)據(jù)的正態(tài)性離群值檢驗(yàn),已知標(biāo)準(zhǔn)差Nair檢驗(yàn),未知標(biāo)準(zhǔn)差時,有Grubbs檢驗(yàn),Dixon檢驗(yàn), 偏度-峰度法等。其中常用偏度-峰度法需要用偏度和峰度兩個指標(biāo)來檢查樣本是否符合正態(tài)分布。偏度衡量的是樣本分布的偏斜方向和程度;而峰度衡量的是樣本 分布曲線的尖峰程度。一般情況下,如果樣本的偏度接近于0,而峰度接近于3,就可以判斷總體的分布接近于正態(tài)分布。
(5)繪制統(tǒng)計圖:用圖形的形式來表達(dá)數(shù)據(jù),比用文字表達(dá)更清晰、更簡明。在SPSS軟件里,可以很容易的繪制各個變量的統(tǒng)計圖形,包括條形圖、餅圖和折線圖等。
2. 假設(shè)檢驗(yàn):是數(shù)理統(tǒng)計學(xué)中根據(jù)一定假設(shè)條件由樣本推斷總體的一種方法。具體作法是:根據(jù)問題的需要對所研究的總體作某種假設(shè),記作H0;選取合適的統(tǒng)計 量,這個統(tǒng)計量的選取要使得在假設(shè)H0成立時,其分布為已知;由實(shí)測的樣本,計算出統(tǒng)計量的值,并根據(jù)預(yù)先給定的顯著性水平進(jìn)行檢驗(yàn),作出拒絕或接受假設(shè) H0的判斷。常用的假設(shè)檢驗(yàn)方法有u—檢驗(yàn)法、t檢驗(yàn)法、χ2檢驗(yàn)法(卡方檢驗(yàn))、F—檢驗(yàn)法,秩和檢驗(yàn)等。
3.相關(guān)分析:相關(guān)分析是研究 現(xiàn)象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度,是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計方法。常見的有線性相關(guān)分 析、偏相關(guān)分析和距離分析。相關(guān)分析與回歸分析在實(shí)際應(yīng)用中有密切關(guān)系。然而在回歸分析中,所關(guān)心的是一個隨機(jī)變量Y對另一個(或一組)隨機(jī)變量X的依賴 關(guān)系的函數(shù)形式。而在相關(guān)分析中 ,所討論的變量的地位一樣,分析側(cè)重于隨機(jī)變量之間的種種相關(guān)特征。例如,以X、Y分別記小學(xué)生的數(shù)學(xué)與語文成績,感興趣的是二者的關(guān)系如何,而不在于由 X去預(yù)測Y。
4.方差分析(Analysis of Variance,簡稱ANOVA):又稱“變異數(shù)分析”或“F檢驗(yàn)”,是R.A.Fisher發(fā)明的,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗(yàn)。 由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動狀。造成波動的原因可分成兩類,一是不可控的隨機(jī)因素,另一是研究中施加的對結(jié)果形成影響的可控因素。
方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
5.回歸分析:回歸主要的種類有:線性回歸,曲線回歸,二元logistic回歸,多元logistic回歸?;貧w分析的應(yīng)用是非常廣泛的,統(tǒng)計軟件包使各種回歸方法計算十分方便。
一般來說,回歸分析是通過規(guī)定因變量和自變量來確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實(shí)測數(shù)據(jù)來求解模型的各個參數(shù),然后評價回歸模型是否能夠很好的擬合實(shí)測數(shù)據(jù);如果能夠很好的擬合,則可以根據(jù)自變量作進(jìn)一步預(yù)測。
6.聚類分析:聚類主要解決的是在“物以類聚、人以群分”,比如以收入分群,高富帥VS矮丑窮;比如按職場分群,職場精英VS職場小白等等。
聚 類的方法層出不窮,基于用戶間彼此距離的長短來對用戶進(jìn)行聚類劃分的方法依然是當(dāng)前最流行的方法。大致的思路是這樣的:首先確定選擇哪些指標(biāo)對用戶進(jìn)行聚 類;然后在選擇的指標(biāo)上計算用戶彼此間的距離,距離的計算公式很多,最常用的就是直線距離(把選擇的指標(biāo)當(dāng)作維度、用戶在每個指標(biāo)下都有相應(yīng)的取值,可以 看作多維空間中的一個點(diǎn),用戶彼此間的距離就可理解為兩者之間的直線距離。);最后聚類方法把彼此距離比較短的用戶聚為一類,類與類之間的距離相對比較 長。
常用的算法k-means、分層、FCM等。
7.判別分析:從已知的各種分類情況中總結(jié)規(guī)律(訓(xùn)練出判別函數(shù)),當(dāng)新樣品進(jìn)入時,判斷其與判別函數(shù)之間的相似程度(概率最大,距離最近,離差最小等判別準(zhǔn)則)。
常用判別方法:最大似然法,距離判別法,F(xiàn)isher判別法,Bayes判別法,逐步判別法等。
注意事項(xiàng):
a. 判別分析的基本條件:分組類型在兩組以上,解釋變量必須是可測的;
b. 每個解釋變量不能是其它解釋變量的線性組合(比如出現(xiàn)多重共線性情況時,判別權(quán)重會出現(xiàn)問題);
c. 各解釋變量之間服從多元正態(tài)分布(不符合時,可使用Logistic回歸替代),且各組解釋變量的協(xié)方差矩陣相等(各組協(xié)方方差矩陣有顯著差異時,判別函數(shù)不相同)。
相對而言,即使判別函數(shù)違反上述適用條件,也很穩(wěn)健,對結(jié)果影響不大。
應(yīng)用領(lǐng)域:對客戶進(jìn)行信用預(yù)測,尋找潛在客戶(是否為消費(fèi)者,公司是否成功,學(xué)生是否被錄用等等),臨床上用于鑒別診斷。
8.主成分與因子分析: 主成分分析基本原理:利用降維(線性變換)的思想,在損失很少信息的前提下把多個指標(biāo)轉(zhuǎn)化為幾個綜合指標(biāo)(主成分),即每個主成分都是原始變量的線性組 合,且各個主成分之間互不相關(guān),使得主成分比原始變量具有某些更優(yōu)越的性能(主成分必須保留原始變量90%以上的信息),從而達(dá)到簡化系統(tǒng)結(jié)構(gòu),抓住問題 實(shí)質(zhì)的目的。
因子分析基本原理:利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),將變量表示成為各因子的線性組合,從而把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子。(因子分析是主成分的推廣,相對于主成分分析,更傾向于描述原始變量之間的相關(guān)關(guān)系)。
9.時間序列分析: 經(jīng)典的統(tǒng)計分析都假定數(shù)據(jù)序列具有獨(dú)立性,而時間序列分析則側(cè)重研究數(shù)據(jù)序列的互相依賴關(guān)系。后者實(shí)際上是對離散指標(biāo)的隨機(jī)過程的統(tǒng)計分析,所以又可看作 是隨機(jī)過程統(tǒng)計的一個組成部分。例如,記錄了某地區(qū)第一個月,第二個月,……,第N個月的降雨量,利用時間序列分析方法,可以對未來各月的雨量進(jìn)行預(yù)報。
10.決策樹(Decision Tree):是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項(xiàng)目風(fēng)險,判斷其可行性的決策分析方法,是直 觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。在機(jī)器學(xué)習(xí)中,決策樹是一個預(yù)測模型,他代表的是對象屬性與對象值 之間的一種映射關(guān)系。Entropy = 系統(tǒng)的凌亂程度,使用算法ID3, C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。
常見的數(shù)據(jù)分析方法論大體的就是這些,結(jié)合案例多練習(xí)下基本上就明白是什么回事。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03