
數(shù)據(jù)質(zhì)量分析
在數(shù)據(jù)分析和數(shù)據(jù)挖掘之前,我們首先要做的就是對數(shù)據(jù)進行預(yù)處理,將那些所謂的“臟數(shù)據(jù)”給去除掉,提高數(shù)據(jù)分析和挖掘的準(zhǔn)確性和有效性。也就是說數(shù)據(jù)質(zhì)量分析是數(shù)據(jù)挖掘和數(shù)據(jù)分析的重要開頭。只有正確有效的數(shù)據(jù)才能挖掘出真正隱藏的信息。否則則會導(dǎo)致很嚴(yán)重的損失。說到數(shù)據(jù)預(yù)處理,他有多種方法,比如:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等。。其中數(shù)據(jù)清理主要指的是對原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù),重復(fù)數(shù)據(jù),平滑噪音數(shù)據(jù),篩選掉與挖掘主題無關(guān)的數(shù)據(jù),處理缺省值,異常值等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實際挖掘所需要的時間。
我們再處理缺失值的時候,一般有三種方法:
①刪除記錄
②數(shù)據(jù)插補
③不處理
其中刪除記錄這種方法最有效,但有很大的局限性,它以減少了歷史數(shù)據(jù)為代價來換取數(shù)據(jù)的完備,這樣會造成資源的大量浪費,也可能丟棄了大量隱藏在這些記錄里面的信息,特別是在數(shù)據(jù)集本來就少的情況下,這種方法會嚴(yán)重影響到分析的客觀性和正確性,失去了數(shù)據(jù)挖掘的意義。因此在大多數(shù)情況下,我們一般要使用算法對原始數(shù)據(jù)集中的那些缺失值進行插補,常用算法有拉格朗日插值和牛頓插值法。但在一般情況,有一些模型可以將缺失值視為一種特殊的取值,允許直接在含義缺失值的數(shù)據(jù)上面進行建模。
在處理異常值的時候,最簡單粗暴易行的方法就是直接刪除異常值的紀(jì)律,但同時缺點也很明顯,在數(shù)據(jù)集本來就少的情況下,不但會嚴(yán)重造成數(shù)據(jù)樣本量不足,影響到分析的客觀性和正確性,也很有可能改變變量的原有分布,對分析結(jié)果產(chǎn)生一定誤差。比較好的方法就是利用現(xiàn)有變量的信息,對異常值進行填報,我應(yīng)該首先分析異常值出現(xiàn)的原因,再判斷異常值是否應(yīng)該丟棄,如果是正確的數(shù)據(jù),那么我們就可以直接在這些異常值的數(shù)據(jù)值上進行挖掘建模。
其中那些“臟數(shù)據(jù)”有
1.缺失值
2.不一致的值
3.重復(fù)數(shù)據(jù),以及含有特殊符號(如#,*,¥等)的數(shù)據(jù)
4.異常值
5.高維度
產(chǎn)生“臟數(shù)據(jù)”的原因:
來源比較多,比如數(shù)據(jù)采集設(shè)備出現(xiàn)故障,存儲介質(zhì),傳輸媒體等的故障,人為的輸入錯誤或理解錯誤導(dǎo)致的。
異常值分析:
異常值也稱為離群點,異常值分析也稱為離群點分析,這個有的時候和我們以前說的極值類似,他會嚴(yán)重影響我們分析,比如平均值。
(1)簡單統(tǒng)計量分析
首先對變量做一個描述性分析,查看那些不合理的數(shù)據(jù)。這個時候我們可以通過最大值,和最小值來大體判斷,也就是極值。比如說一個人的 身高是450cm,這個肯定就是異常值。
(2)3σ原則
這種方法,多是該數(shù)據(jù)服從正態(tài)分布,在該原則下,異常值被定義為一組測定值中與平均值的偏差超過三倍標(biāo)準(zhǔn)差的值。在正態(tài)分布下,距離 平均值3σ之外的值出現(xiàn)的概率為
P(|x-μ|>3σ)<=0.003,屬于極個別的小概率事件。
(3)箱形圖分析
箱形圖又稱盒須圖,盒式圖,或箱線圖,是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計圖,常用于品質(zhì)管理。箱形圖提供了識別異常值的標(biāo) 準(zhǔn):異常值通常被定義為小于QL—1.5IQR或大于QU+1.5IQR的值。其中QL稱為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)比它小;QU稱 為上
四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)值比他大;IQR稱為四分位數(shù)間距,是四分位數(shù)QU和QL的差值,期間包含了全部觀察值
的一半。
數(shù)據(jù)特征分析:
我們可以通過對數(shù)據(jù)進行質(zhì)量分析后,繪圖制表,計算特征值等手段進行數(shù)據(jù)的特征分析。分布分析能夠揭示數(shù)據(jù)的分布特征和分別類型。如果我們想了解一些定量的數(shù)據(jù)的分布形式是對稱的還是非對稱的,存在一些極值,我們就可以做頻率分別直方圖,頻率分布表,繪制莖葉圖等進行直觀分析。對于那些定性數(shù)據(jù),可以做扇形圖(餅形圖)和條形圖來直觀的顯示分別情況,通過圖表可以很方便的觀察出來。
定量數(shù)據(jù)的分布分析方法:
步驟:
(1)求出極值,計算極差
(2)決定組距和組數(shù)(繪制頻率分析時的關(guān)鍵)
(3)決定分點
(4)制出頻率分別表
(5)繪制頻率分布直方圖
遵循原則:
(1) 各組之間必須是相互排斥的
(2) 各組必須將所有的數(shù)據(jù)包含在內(nèi)(不包含“臟數(shù)據(jù)”)
(3) 各組的組寬最好相等,這樣便于觀察。
對比分析
顧名思義,對比分析就是把兩個相互聯(lián)系的指標(biāo)進行比較,比較適合用于指標(biāo)間的橫縱向比較,時間序列的比較分析。對比分析有一下兩種分析形式:
(1)絕對值比較
(2)相對數(shù)比較
第一種是利用絕對數(shù)(通常反映了一定時間,地點條件下的規(guī)模,水平,帶有各種單位,比如某個區(qū)域的糧食總產(chǎn)量,,社會消費品零售總額等)進行對比,從而尋找差異的一種方法。第二種利用相對數(shù)(通常是指以增幅,增長速度,指數(shù),倍數(shù)等表現(xiàn)形式出現(xiàn),比如各類價格的指數(shù),GDP增長率,相對數(shù)一般都是對絕對數(shù)進行加工后取得的)比較,用來反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo)。相對數(shù)有可以分為以下幾種:(1)結(jié)構(gòu)相對數(shù)(2)比例相對數(shù)(3)比較相對數(shù)(4)強度相對數(shù)(5)計劃完成相對數(shù)(6)動態(tài)相對數(shù))
集中趨勢度量
(1)均值 (2)中位數(shù) (3)眾數(shù)
離中趨勢度量
(1) 極差
(2) 標(biāo)準(zhǔn)差
(3) 變異系數(shù)
它是度量 標(biāo)準(zhǔn)差相對于均值的離中趨勢,主要用來比較兩個或多個具有不同單位或不同波動幅度的數(shù)據(jù)集的離中趨勢。
(4)四分位數(shù)間距
四分位數(shù)中間包含了全部觀察值的一半,其值越大,說明數(shù)據(jù)的變異程度越大,反之變異程度越小。
周期性分析
周期性分析是探索某個變量是否隨著時間變化而呈現(xiàn)出某種規(guī)律性變化。比如對用電量的預(yù)測。這個時間尺度有長,有短。長的有季節(jié)性周期性趨勢,短的有周度周期性趨勢等。
貢獻(xiàn)度分析
貢獻(xiàn)度分析又稱為帕累托分析,他的原理是帕累托法則又稱20/80定律,為什么稱為20/80定律,因為對于一個公司來說,80%的利潤來自20%最暢銷的產(chǎn)品,而其他80%的產(chǎn)品只產(chǎn)生了20%的利潤,表示把相同的投入成本放在不同的對象就會產(chǎn)生不同的效益。
相關(guān)性分析
(1) 直接繪制散點圖
(2) 繪制散點圖矩陣
計算相關(guān)系數(shù)
(1) Person相關(guān)系數(shù)
(2) Spearman秩相關(guān)系數(shù)
Person線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正態(tài)分布,不服從正態(tài)分布的變量,分類或等級變量之間的關(guān)聯(lián)性可采用Spearman秩相關(guān)系數(shù),也可以成為等級相關(guān)系數(shù)來描述。
Ri代表xi的秩次,Qi代表yi的秩次。
(3) 只要兩個變量具有嚴(yán)格單調(diào)的函數(shù)關(guān)系,那么他們一定是完全Spearman相關(guān),Person相關(guān)只有在變量具有線性關(guān)系時才完全相關(guān)的。在正態(tài)分布下Person相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)在效率上面是等價的,但對于連續(xù)測量的數(shù)據(jù),更適合Person相關(guān)系數(shù)進行分析。
判定系數(shù)
判定系數(shù)是相關(guān)系數(shù)的平方,r^2 來表示,一般用來衡量回歸方程對y的解釋程度,它的取值范圍是0<=r^2<=1,當(dāng)它越接近1表明x與y的相關(guān)性越高,接近0的話表示兩個變量之間幾乎沒有相關(guān)性。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10