
探索性數(shù)據(jù)分析(Exploratory Data Analysis,EDA)是指對已有數(shù)據(jù)在盡量少的先驗假設(shè)下通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。
常用的第三方庫
數(shù)據(jù)科學(xué)庫
常用函數(shù)
數(shù)據(jù)簡略觀測
數(shù)據(jù)總覽
數(shù)據(jù)檢測
缺失值檢測
異常值檢測
預(yù)測分布
總體分布概況:
很多模型假設(shè)數(shù)據(jù)服從正態(tài)分布,數(shù)據(jù)整體服從正態(tài)分布,樣本均值和方差則相互獨(dú)立。當(dāng)樣本不服從正態(tài)分布時,可以做如下轉(zhuǎn)換:
查看skeness 和kurtosis
預(yù)測值的具體頻數(shù)
當(dāng)某范圍預(yù)測值很少時,可將其當(dāng)作異常值處理填充或刪除。若頻數(shù)很失常,需對數(shù)據(jù)進(jìn)行處理,例如進(jìn)行l(wèi)og變換,使數(shù)據(jù)分布較均勻,可據(jù)處理后的數(shù)據(jù)進(jìn)行預(yù)測,這也是預(yù)測問題常用的技巧。
特征分析
數(shù)字特征
類別特征
數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。俗話說:garbage in, garbage out。分析完數(shù)據(jù)后,特征工程前,必不可少的步驟是對數(shù)據(jù)進(jìn)行清洗。
數(shù)據(jù)清洗作用是利用有關(guān)技術(shù)如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。主要包括缺失值處理、異常值處理、數(shù)據(jù)分桶、特征歸一化/標(biāo)準(zhǔn)化等流程。
缺失值處理
關(guān)于缺失值處理的方式, 有幾種情況:
異常值處理
常用的異常值處理操作包括BOX-COX轉(zhuǎn)換(處理有偏分布),箱線圖分析刪除異常值, 長尾截斷等方式, 當(dāng)然這些操作一般都是處理數(shù)值型的數(shù)據(jù)。
數(shù)據(jù)分桶
連續(xù)值經(jīng)常離散化或者分離成“箱子”進(jìn)行分析, 為什么要做數(shù)據(jù)分桶呢?
當(dāng)然還有很多原因,LightGBM 在改進(jìn) XGBoost 時就增加了數(shù)據(jù)分桶,增強(qiáng)了模型的泛化性。現(xiàn)在介紹數(shù)據(jù)分桶的方式有:
數(shù)據(jù)轉(zhuǎn)換的方式有:
特征工程指的是把原始數(shù)據(jù)轉(zhuǎn)變?yōu)槟P陀?xùn)練數(shù)據(jù)的過程,目的是獲取更好的訓(xùn)練數(shù)據(jù)特征。特征工程能使得模型的性能得到提升,有時甚至在簡單的模型上也能取得不錯的效果。
特征構(gòu)造
特征構(gòu)造的時候需要考慮數(shù)值特征,類別特征,時間特征。
特征選擇
特征選擇主要有兩個功能:
通常來說,從兩個方面考慮來選擇特征:
數(shù)據(jù)特征維度太高,首先會導(dǎo)致計算很麻煩,其次增加了問題的復(fù)雜程度,分析起來也不方便。但盲目減少數(shù)據(jù)的特征會損失掉數(shù)據(jù)包含的關(guān)鍵信息,容易產(chǎn)生錯誤的結(jié)論,對分析不利。
PCA降維方法,既可以減少需要分析的指標(biāo),而且盡可能多的保持了原來數(shù)據(jù)的信息。
但要注意一點(diǎn), 特征選擇是從已存在的特征中選取攜帶信息最多的,選完之后的特征依然具有可解釋性,而PCA,將已存在的特征壓縮,降維完畢后不是原來特征的任何一個,也就是PCA降維之后的特征我們根本不知道什么含義了。
特征工程也好,數(shù)據(jù)清洗也罷,都是為最終的模型來服務(wù)的,模型的建立和調(diào)參決定了最終的結(jié)果。模型的選擇決定結(jié)果的上限, 如何更好的去達(dá)到模型上限取決于模型的調(diào)參。
建模的過程需要我們對常見的線性模型、非線性模型有基礎(chǔ)的了解。模型構(gòu)建完成后,需要掌握一定的模型性能驗證的方法和技巧。同時,還需要掌握貪心調(diào)參、網(wǎng)格調(diào)參、貝葉斯調(diào)參等調(diào)參方法。
回歸分析是一種統(tǒng)計學(xué)上分析數(shù)據(jù)的方法,目的在于了解兩個或多個變量間是否相關(guān)、相關(guān)方向與強(qiáng)度,并建立數(shù)學(xué)模型。以便通過觀察特定變量(自變量),來預(yù)測研究者感興趣的變量(因變量)
這種分布會使得采樣不準(zhǔn),估值不準(zhǔn),因為尾部占了很大部分。另一方面,尾部的數(shù)據(jù)少,人們對它的了解就少,那么如果它是有害的,那么它的破壞力就非常大,因為人們對它的預(yù)防措施和經(jīng)驗比較少。
欠擬合:訓(xùn)練的模型在訓(xùn)練集上面的表現(xiàn)很差,在驗證集上面的表現(xiàn)也很差。即訓(xùn)練誤差和泛化誤差都很大。原因:
過擬合:模型的訓(xùn)練誤差遠(yuǎn)小于它在測試數(shù)據(jù)集上的誤差。即訓(xùn)練誤差不錯,但是泛化誤差比訓(xùn)練誤差相差太多。原因:
由此引出模型復(fù)雜度概念模型中的參數(shù),一個簡單的二元線性的函數(shù)只有兩個權(quán)重,而多元的復(fù)雜的函數(shù)的權(quán)重可能會什么上百上千個。
模型復(fù)雜度太低(參數(shù)過少),模型學(xué)習(xí)得太少,就難以訓(xùn)練出有效的模型,便會出現(xiàn)欠擬合。模型復(fù)雜度太高(參數(shù)很多),即模型可訓(xùn)練空間很大,容易學(xué)習(xí)過度,甚至于也將噪聲數(shù)據(jù)學(xué)習(xí)了,便會出現(xiàn)過擬合。
損失函數(shù)后面會添加一個額外項,稱作 L1正則化 和 L2正則化,或者 L1范數(shù)和 L2范數(shù)。
L1正則化和L2正則化可以看做是損失函數(shù)的懲罰項。所謂『懲罰』是指對損失函數(shù)中的某些參數(shù)做一些限制。對于線性回歸模型,使用L1正則化的模型建叫做Lasso回歸,使用L2正則化的模型叫做Ridge回歸(嶺回歸)。
正則化說明:
正則化作用:
調(diào)參方法
貪心調(diào)參 (坐標(biāo)下降)坐標(biāo)下降法是一類優(yōu)化算法,其最大的優(yōu)勢在于不用計算待優(yōu)化的目標(biāo)函數(shù)的梯度。與坐標(biāo)下降法不同的是,不循環(huán)使用各個參數(shù)進(jìn)行調(diào)整,而是貪心地選取了對整體模型性能影響最大的參數(shù)。參數(shù)對整體模型性能的影響力是動態(tài)變化的,故每一輪坐標(biāo)選取的過程中,這種方法在對每個坐標(biāo)的下降方向進(jìn)行一次直線搜索(line search)網(wǎng)格調(diào)參GridSearchCV作用是在指定的范圍內(nèi)可以自動調(diào)參,只需將參數(shù)輸入即可得到最優(yōu)化的結(jié)果和參數(shù)。相對于人工調(diào)參更省時省力,相對于for循環(huán)方法更簡潔靈活,不易出錯。貝葉斯調(diào)參貝葉斯優(yōu)化通過基于目標(biāo)函數(shù)的過去評估結(jié)果建立替代函數(shù)(概率模型),來找到最小化目標(biāo)函數(shù)的值。貝葉斯方法與隨機(jī)或網(wǎng)格搜索的不同之處在于,它在嘗試下一組超參數(shù)時,會參考之前的評估結(jié)果,因此可以省去很多無用功。超參數(shù)的評估代價很大,因為它要求使用待評估的超參數(shù)訓(xùn)練一遍模型,而許多深度學(xué)習(xí)模型動則幾個小時幾天才能完成訓(xùn)練,并評估模型,因此耗費(fèi)巨大。貝葉斯調(diào)參發(fā)使用不斷更新的概率模型,通過推斷過去的結(jié)果來“集中”有希望的超參數(shù)。
這里給出一個模型可調(diào)參數(shù)及范圍選取的參考:
通過融合多個不同的模型,可能提升機(jī)器學(xué)習(xí)的性能。這一方法在各種機(jī)器學(xué)習(xí)比賽中廣泛應(yīng)用, 也是在比賽的攻堅時刻沖刺Top的關(guān)鍵。而融合模型往往又可以從模型結(jié)果,模型自身,樣本集等不同的角度進(jìn)行融合。
模型融合是比賽后期一個重要的環(huán)節(jié),大體來說有如下的類型方式
1. 簡單加權(quán)融合:
2. stacking/blending:
3. boosting/bagging:
簡單算術(shù)平均法
Averaging方法就多個模型預(yù)測的結(jié)果進(jìn)行平均。這種方法既可以用于回歸問題,也可以用于對分類問題的概率進(jìn)行平均。
加權(quán)算術(shù)平均法
這種方法是平均法的擴(kuò)展??紤]不同模型的能力不同,對最終結(jié)果的貢獻(xiàn)也有差異,需要用權(quán)重來表征不同模型的重要性importance。
投票法
假設(shè)對于一個二分類問題,有3個基礎(chǔ)模型,現(xiàn)在我們可以在這些基學(xué)習(xí)器的基礎(chǔ)上得到一個投票的分類器,把票數(shù)最多的類作為我們要預(yù)測的類別。
堆疊法(Stacking)
stacking 就是當(dāng)用初始訓(xùn)練數(shù)據(jù)學(xué)習(xí)出若干個基學(xué)習(xí)器后,將這幾個學(xué)習(xí)器的預(yù)測結(jié)果作為新的訓(xùn)練集,來學(xué)習(xí)一個新的學(xué)習(xí)器。對不同模型預(yù)測的結(jié)果再進(jìn)行建模。
把原始的訓(xùn)練集先分成兩部分,比如70%的數(shù)據(jù)作為新的訓(xùn)練集,剩下30%的數(shù)據(jù)作為測試集。
其基本思想是:增加前一個基學(xué)習(xí)器在訓(xùn)練訓(xùn)練過程中預(yù)測錯誤樣本的權(quán)重,使得后續(xù)基學(xué)習(xí)器更加關(guān)注這些打標(biāo)錯誤的訓(xùn)練樣本,盡可能糾正這些錯誤,一直向下串行直至產(chǎn)生需要的T個基學(xué)習(xí)器,Boosting最終對這T個學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合,產(chǎn)生學(xué)習(xí)器委員會。
下面給出加州大學(xué)歐文分校Alex Ihler教授的兩頁P(yáng)PT:
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03