
數(shù)據(jù)分析方法匯總(1)
很長時間沒有寫過關(guān)于數(shù)據(jù)分析師的文章了,做數(shù)據(jù)分析師也好多年了,近期好多數(shù)據(jù)小白們在問,數(shù)據(jù)分析師的數(shù)據(jù)分析方法都有哪些,下面是對數(shù)據(jù)分析方法的總結(jié)。
一、描述統(tǒng)計
描述性統(tǒng)計是指運用制表和分類,圖形以及計筠概括性數(shù)據(jù)來描述數(shù)據(jù)的集中趨勢、離散趨勢、偏度、峰度。
1、缺失值填充:常用方法:剔除法、均值法、最小鄰居法、比率\回歸法、決策樹法。
2、正態(tài)性檢驗:很多統(tǒng)計方法都要求數(shù)值服從或近似服從正態(tài)分布,所以之前需要進(jìn)行正態(tài)性檢驗。常用方法:非參數(shù)檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
1、參數(shù)檢驗
參數(shù)檢驗是在已知總體分布的條件下(一股要求總體服從正態(tài)分布)對一些主要的參數(shù)(如均值、百分?jǐn)?shù)、方差、相關(guān)系數(shù)等)進(jìn)行的檢驗 。
1)U驗 使用條件:當(dāng)樣本含量n較大時,樣本值符合正態(tài)分布
2)T檢驗 使用條件:當(dāng)樣本含量n較小時,樣本值符合正態(tài)分布
A 單樣本t檢驗:推斷該樣本來自的總體均數(shù)μ與已知的某一總體均數(shù)μ0 (常為理論值或標(biāo)準(zhǔn)值)有無差別;
B 配對樣本t檢驗:當(dāng)總體均數(shù)未知時,且兩個樣本可以配對,同對中的兩者在可能會影響處理效果的各種條件方面扱為相似;
C 兩獨立樣本t檢驗:無法找到在各方面極為相似的兩樣本作配對比較時使用。
2、非參數(shù)檢驗
非參數(shù)檢驗則不考慮總體分布是否已知,常常也不是針對總體參數(shù),而是針對總體的某些一股性假設(shè)(如總體分布的位罝是否相同,總體分布是否正態(tài))進(jìn)行檢驗。
適用情況:順序類型的數(shù)據(jù)資料,這類數(shù)據(jù)的分布形態(tài)一般是未知的。
A 雖然是連續(xù)數(shù)據(jù),但總體分布形態(tài)未知或者非正態(tài);
B 體分布雖然正態(tài),數(shù)據(jù)也是連續(xù)類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
三、信度分析
檢査測量的可信度,例如調(diào)查問卷的真實性。
分類:
1、外在信度:不同時間測量時量表的一致性程度,常用方法重測信度
2、內(nèi)在信度;每個量表是否測量到單一的概念,同時組成兩表的內(nèi)在體項一致性如何,常用方法分半信度。
四、列聯(lián)表分析
用于分析離散變量或定型變量之間是否存在相關(guān)。
對于二維表,可進(jìn)行卡方檢驗,對于三維表,可作Mentel-Hanszel分層分析。
列聯(lián)表分析還包括配對計數(shù)資料的卡方檢驗、行列均為順序變量的相關(guān)檢驗。
五、相關(guān)分析
研究現(xiàn)象之間是否存在某種依存關(guān)系,對具體有依存關(guān)系的現(xiàn)象探討相關(guān)方向及相關(guān)程度。
1、單相關(guān): 兩個因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時只涉及一個自變量和一個因變量;
2、復(fù)相關(guān) :三個或三個以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時涉及兩個或兩個以上的自變量和因變量相關(guān);
3、偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,當(dāng)假定其他變量不變時,其中兩個變量之間的相關(guān)關(guān)系稱為偏相關(guān)。
六、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態(tài)分布總體;各總體方差相等。
分類
1、單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應(yīng)變量的關(guān)系
2、多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應(yīng)變量的關(guān)系,同時考慮多個影響因素之間的關(guān)系
3、多因素?zé)o交互方差分析:分析多個影響因素與響應(yīng)變量的關(guān)系,但是影響因素之間沒有影響關(guān)系或忽略影響關(guān)系
4、協(xié)方差分祈:傳統(tǒng)的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,使之影響了分祈結(jié)果的準(zhǔn)確度。協(xié)方差分析主要是在排除了協(xié)變量的影響后再對修正后的主效應(yīng)進(jìn)行方差分析,是將線性回歸與方差分析結(jié)合起來的一種分析方法,
七、回歸分析
分類:
1、一元線性回歸分析:只有一個自變量X與因變量Y有關(guān),X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布。
2、多元線性回歸分析
使用條件:分析多個自變量與因變量Y的關(guān)系,X與Y都必須是連續(xù)型變量,因變量y或其殘差必須服從正態(tài)分布 。
1)變呈篩選方式:選擇最優(yōu)回歸方程的變里篩選法包括全橫型法(CP法)、逐步回歸法,向前引入法和向后剔除法
2)橫型診斷方法:
A 殘差檢驗: 觀測值與估計值的差值要艱從正態(tài)分布
B 強影響點判斷:尋找方式一般分為標(biāo)準(zhǔn)誤差法、Mahalanobis距離法
C 共線性診斷:
·診斷方式:容忍度、方差擴大因子法(又稱膨脹系數(shù)VIF)、特征根判定法、條件指針CI、方差比例
·處理方法:增加樣本容量或選取另外的回歸如主成分回歸、嶺回歸等
3、Logistic回歸分析
線性回歸模型要求因變量是連續(xù)的正態(tài)分布變里,且自變量和因變量呈線性關(guān)系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況
分類:
Logistic回歸模型有條件與非條件之分,條件Logistic回歸模型和非條件Logistic回歸模型的區(qū)別在于參數(shù)的估計是否用到了條件概率。
4、其他回歸方法 非線性回歸、有序回歸、Probit回歸、加權(quán)回歸等
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03