
數(shù)據(jù)質(zhì)量分析
在數(shù)據(jù)分析和數(shù)據(jù)挖掘之前,我們首先要做的就是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將那些所謂的“臟數(shù)據(jù)”給去除掉,提高數(shù)據(jù)分析和挖掘的準(zhǔn)確性和有效性。也就是說(shuō)數(shù)據(jù)質(zhì)量分析是數(shù)據(jù)挖掘和數(shù)據(jù)分析的重要開頭。只有正確有效的數(shù)據(jù)才能挖掘出真正隱藏的信息。否則則會(huì)導(dǎo)致很嚴(yán)重的損失。說(shuō)到數(shù)據(jù)預(yù)處理,他有多種方法,比如:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等。。其中數(shù)據(jù)清理主要指的是對(duì)原始數(shù)據(jù)集中的無(wú)關(guān)數(shù)據(jù),重復(fù)數(shù)據(jù),平滑噪音數(shù)據(jù),篩選掉與挖掘主題無(wú)關(guān)的數(shù)據(jù),處理缺省值,異常值等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間。
我們?cè)偬幚砣笔е档臅r(shí)候,一般有三種方法:
①刪除記錄
②數(shù)據(jù)插補(bǔ)
③不處理
其中刪除記錄這種方法最有效,但有很大的局限性,它以減少了歷史數(shù)據(jù)為代價(jià)來(lái)?yè)Q取數(shù)據(jù)的完備,這樣會(huì)造成資源的大量浪費(fèi),也可能丟棄了大量隱藏在這些記錄里面的信息,特別是在數(shù)據(jù)集本來(lái)就少的情況下,這種方法會(huì)嚴(yán)重影響到分析的客觀性和正確性,失去了數(shù)據(jù)挖掘的意義。因此在大多數(shù)情況下,我們一般要使用算法對(duì)原始數(shù)據(jù)集中的那些缺失值進(jìn)行插補(bǔ),常用算法有拉格朗日插值和牛頓插值法。但在一般情況,有一些模型可以將缺失值視為一種特殊的取值,允許直接在含義缺失值的數(shù)據(jù)上面進(jìn)行建模。
在處理異常值的時(shí)候,最簡(jiǎn)單粗暴易行的方法就是直接刪除異常值的紀(jì)律,但同時(shí)缺點(diǎn)也很明顯,在數(shù)據(jù)集本來(lái)就少的情況下,不但會(huì)嚴(yán)重造成數(shù)據(jù)樣本量不足,影響到分析的客觀性和正確性,也很有可能改變變量的原有分布,對(duì)分析結(jié)果產(chǎn)生一定誤差。比較好的方法就是利用現(xiàn)有變量的信息,對(duì)異常值進(jìn)行填報(bào),我應(yīng)該首先分析異常值出現(xiàn)的原因,再判斷異常值是否應(yīng)該丟棄,如果是正確的數(shù)據(jù),那么我們就可以直接在這些異常值的數(shù)據(jù)值上進(jìn)行挖掘建模。
其中那些“臟數(shù)據(jù)”有
1.缺失值
2.不一致的值
3.重復(fù)數(shù)據(jù),以及含有特殊符號(hào)(如#,*,¥等)的數(shù)據(jù)
4.異常值
5.高維度
產(chǎn)生“臟數(shù)據(jù)”的原因:
來(lái)源比較多,比如數(shù)據(jù)采集設(shè)備出現(xiàn)故障,存儲(chǔ)介質(zhì),傳輸媒體等的故障,人為的輸入錯(cuò)誤或理解錯(cuò)誤導(dǎo)致的。
異常值分析:
異常值也稱為離群點(diǎn),異常值分析也稱為離群點(diǎn)分析,這個(gè)有的時(shí)候和我們以前說(shuō)的極值類似,他會(huì)嚴(yán)重影響我們分析,比如平均值。
(1)簡(jiǎn)單統(tǒng)計(jì)量分析
首先對(duì)變量做一個(gè)描述性分析,查看那些不合理的數(shù)據(jù)。這個(gè)時(shí)候我們可以通過最大值,和最小值來(lái)大體判斷,也就是極值。比如說(shuō)一個(gè)人的 身高是450cm,這個(gè)肯定就是異常值。
(2)3σ原則
這種方法,多是該數(shù)據(jù)服從正態(tài)分布,在該原則下,異常值被定義為一組測(cè)定值中與平均值的偏差超過三倍標(biāo)準(zhǔn)差的值。在正態(tài)分布下,距離 平均值3σ之外的值出現(xiàn)的概率為
P(|x-μ|>3σ)<=0.003,屬于極個(gè)別的小概率事件。
(3)箱形圖分析
箱形圖又稱盒須圖,盒式圖,或箱線圖,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖,常用于品質(zhì)管理。箱形圖提供了識(shí)別異常值的標(biāo) 準(zhǔn):異常值通常被定義為小于QL—1.5IQR或大于QU+1.5IQR的值。其中QL稱為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)比它?。籕U稱 為上
四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)值比他大;IQR稱為四分位數(shù)間距,是四分位數(shù)QU和QL的差值,期間包含了全部觀察值
的一半。
數(shù)據(jù)特征分析:
我們可以通過對(duì)數(shù)據(jù)進(jìn)行質(zhì)量分析后,繪圖制表,計(jì)算特征值等手段進(jìn)行數(shù)據(jù)的特征分析。分布分析能夠揭示數(shù)據(jù)的分布特征和分別類型。如果我們想了解一些定量的數(shù)據(jù)的分布形式是對(duì)稱的還是非對(duì)稱的,存在一些極值,我們就可以做頻率分別直方圖,頻率分布表,繪制莖葉圖等進(jìn)行直觀分析。對(duì)于那些定性數(shù)據(jù),可以做扇形圖(餅形圖)和條形圖來(lái)直觀的顯示分別情況,通過圖表可以很方便的觀察出來(lái)。
定量數(shù)據(jù)的分布分析方法:
步驟:
(1)求出極值,計(jì)算極差
(2)決定組距和組數(shù)(繪制頻率分析時(shí)的關(guān)鍵)
(3)決定分點(diǎn)
(4)制出頻率分別表
(5)繪制頻率分布直方圖
遵循原則:
(1) 各組之間必須是相互排斥的
(2) 各組必須將所有的數(shù)據(jù)包含在內(nèi)(不包含“臟數(shù)據(jù)”)
(3) 各組的組寬最好相等,這樣便于觀察。
對(duì)比分析
顧名思義,對(duì)比分析就是把兩個(gè)相互聯(lián)系的指標(biāo)進(jìn)行比較,比較適合用于指標(biāo)間的橫縱向比較,時(shí)間序列的比較分析。對(duì)比分析有一下兩種分析形式:
(1)絕對(duì)值比較
(2)相對(duì)數(shù)比較
第一種是利用絕對(duì)數(shù)(通常反映了一定時(shí)間,地點(diǎn)條件下的規(guī)模,水平,帶有各種單位,比如某個(gè)區(qū)域的糧食總產(chǎn)量,,社會(huì)消費(fèi)品零售總額等)進(jìn)行對(duì)比,從而尋找差異的一種方法。第二種利用相對(duì)數(shù)(通常是指以增幅,增長(zhǎng)速度,指數(shù),倍數(shù)等表現(xiàn)形式出現(xiàn),比如各類價(jià)格的指數(shù),GDP增長(zhǎng)率,相對(duì)數(shù)一般都是對(duì)絕對(duì)數(shù)進(jìn)行加工后取得的)比較,用來(lái)反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo)。相對(duì)數(shù)有可以分為以下幾種:(1)結(jié)構(gòu)相對(duì)數(shù)(2)比例相對(duì)數(shù)(3)比較相對(duì)數(shù)(4)強(qiáng)度相對(duì)數(shù)(5)計(jì)劃完成相對(duì)數(shù)(6)動(dòng)態(tài)相對(duì)數(shù))
集中趨勢(shì)度量
(1)均值 (2)中位數(shù) (3)眾數(shù)
離中趨勢(shì)度量
(1) 極差
(2) 標(biāo)準(zhǔn)差
(3) 變異系數(shù)
它是度量 標(biāo)準(zhǔn)差相對(duì)于均值的離中趨勢(shì),主要用來(lái)比較兩個(gè)或多個(gè)具有不同單位或不同波動(dòng)幅度的數(shù)據(jù)集的離中趨勢(shì)。
(4)四分位數(shù)間距
四分位數(shù)中間包含了全部觀察值的一半,其值越大,說(shuō)明數(shù)據(jù)的變異程度越大,反之變異程度越小。
周期性分析
周期性分析是探索某個(gè)變量是否隨著時(shí)間變化而呈現(xiàn)出某種規(guī)律性變化。比如對(duì)用電量的預(yù)測(cè)。這個(gè)時(shí)間尺度有長(zhǎng),有短。長(zhǎng)的有季節(jié)性周期性趨勢(shì),短的有周度周期性趨勢(shì)等。
貢獻(xiàn)度分析
貢獻(xiàn)度分析又稱為帕累托分析,他的原理是帕累托法則又稱20/80定律,為什么稱為20/80定律,因?yàn)閷?duì)于一個(gè)公司來(lái)說(shuō),80%的利潤(rùn)來(lái)自20%最暢銷的產(chǎn)品,而其他80%的產(chǎn)品只產(chǎn)生了20%的利潤(rùn),表示把相同的投入成本放在不同的對(duì)象就會(huì)產(chǎn)生不同的效益。
相關(guān)性分析
(1) 直接繪制散點(diǎn)圖
(2) 繪制散點(diǎn)圖矩陣
計(jì)算相關(guān)系數(shù)
(1) Person相關(guān)系數(shù)
(2) Spearman秩相關(guān)系數(shù)
Person線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正態(tài)分布,不服從正態(tài)分布的變量,分類或等級(jí)變量之間的關(guān)聯(lián)性可采用Spearman秩相關(guān)系數(shù),也可以成為等級(jí)相關(guān)系數(shù)來(lái)描述。
Ri代表xi的秩次,Qi代表yi的秩次。
(3) 只要兩個(gè)變量具有嚴(yán)格單調(diào)的函數(shù)關(guān)系,那么他們一定是完全Spearman相關(guān),Person相關(guān)只有在變量具有線性關(guān)系時(shí)才完全相關(guān)的。在正態(tài)分布下Person相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)在效率上面是等價(jià)的,但對(duì)于連續(xù)測(cè)量的數(shù)據(jù),更適合Person相關(guān)系數(shù)進(jìn)行分析。
判定系數(shù)
判定系數(shù)是相關(guān)系數(shù)的平方,r^2 來(lái)表示,一般用來(lái)衡量回歸方程對(duì)y的解釋程度,它的取值范圍是0<=r^2<=1,當(dāng)它越接近1表明x與y的相關(guān)性越高,接近0的話表示兩個(gè)變量之間幾乎沒有相關(guān)性。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03