
從線性回歸到無監(jiān)督學習,數(shù)據(jù)科學家需要掌握的十大統(tǒng)
不管你對數(shù)據(jù)科學持什么態(tài)度,都不可能忽略分析、組織和梳理數(shù)據(jù)的重要性。Glassdoor 網(wǎng)站根據(jù)大量雇主和員工的反饋數(shù)據(jù)制作了「美國最好的
25
個職位」榜單,其中第一名就是數(shù)據(jù)科學家。盡管排名已經(jīng)頂尖了,但數(shù)據(jù)科學家的工作內(nèi)容一定不會就此止步。隨著深度學習等技術(shù)越來越普遍、深度學習等熱門領(lǐng)域越來越受到研究者和工程師以及雇傭他們的企業(yè)的關(guān)注,數(shù)據(jù)科學家繼續(xù)走在創(chuàng)新和技術(shù)進步的前沿。
盡管具備強大的編程能力非常重要,但數(shù)據(jù)科學不全關(guān)于軟件工程(實際上,只要熟悉 Python
就足以滿足編程的需求)。數(shù)據(jù)科學家需要同時具備編程、統(tǒng)計學和批判思維能力。正如 Josh Wills
所說:「數(shù)據(jù)科學家比程序員擅長統(tǒng)計學,比統(tǒng)計學家擅長編程?!刮易约赫J識很多軟件工程師希望轉(zhuǎn)型成為數(shù)據(jù)科學家,但是他們盲目地使用
TensorFlow 或 Apache Spark
等機器學習框架處理數(shù)據(jù),而沒有全面理解其背后的統(tǒng)計學理論知識。因此他們需要系統(tǒng)地研究統(tǒng)計機器學習,該學科脫胎于統(tǒng)計學和泛函分析,并結(jié)合了信息論、最優(yōu)化理論和線性代數(shù)等多門學科。
為什么學習統(tǒng)計學習?理解不同技術(shù)背后的理念非常重要,它可以幫助你了解如何使用以及什么時候使用。同時,準確評估一種方法的性能也非常重要,因為它能告訴我們某種方法在特定問題上的表現(xiàn)。此外,統(tǒng)計學習也是一個很有意思的研究領(lǐng)域,在科學、工業(yè)和金融領(lǐng)域都有重要的應(yīng)用。最后,統(tǒng)計學習是訓練現(xiàn)代數(shù)據(jù)科學家的基礎(chǔ)組成部分。統(tǒng)計學習方法的經(jīng)典研究主題包括:
線性回歸模型
感知機
k 近鄰法
樸素貝葉斯法
決策樹
Logistic 回歸于最大熵模型
支持向量機
提升方法
EM 算法
隱馬爾可夫模型
條件隨機場
之后我將介紹 10 項統(tǒng)計技術(shù),幫助數(shù)據(jù)科學家更加高效地處理大數(shù)據(jù)集的統(tǒng)計技術(shù)。在此之前,我想先厘清統(tǒng)計學習和機器學習的區(qū)別:
機器學習是偏向人工智能的分支。
統(tǒng)計學習方法是偏向統(tǒng)計學的分支。
機器學習更側(cè)重大規(guī)模應(yīng)用和預(yù)測準確率。
統(tǒng)計學系側(cè)重模型及其可解釋性,以及精度和不確定性。
二者之間的區(qū)別越來越模糊。
1. 線性回歸
在統(tǒng)計學中,線性回歸通過擬合因變量和自變量之間的最佳線性關(guān)系來預(yù)測目標變量。最佳擬合通過盡量縮小預(yù)測的線性表達式和實際觀察結(jié)果間的距離總和來實現(xiàn)。沒有其他位置比該形狀生成的錯誤更少,從這個角度來看,該形狀的擬合是「最佳」。線性回歸的兩個主要類型是簡單線性回歸和多元線性回歸。
簡單線性回歸使用一個自變量通過擬合最佳線性關(guān)系來預(yù)測因變量的變化情況。多元線性回歸使用多個自變量通過擬合最佳線性關(guān)系來預(yù)測因變量的變化趨勢。
任意選擇兩個日常使用且相關(guān)的物體。比如,我有過去三年月支出、月收入和每月旅行次數(shù)的數(shù)據(jù)?,F(xiàn)在我需要回答以下問題:
我下一年月支出是多少?
哪個因素(月收入或每月旅行次數(shù))在決定月支出方面更重要?
月收入和每月旅行次數(shù)與月支出之間是什么關(guān)系?
2. 分類
分類是一種數(shù)據(jù)挖掘技術(shù),為數(shù)據(jù)分配類別以幫助進行更準確的預(yù)測和分析。分類是一種高效分析大型數(shù)據(jù)集的方法,兩種主要的分類技術(shù)是:logistic 回歸和判別分析(Discriminant Analysis)。
logistic 回歸是適合在因變量為二元類別的回歸分析。和所有回歸分析一樣,logistic 回歸是一種預(yù)測性分析。logistic
回歸用于描述數(shù)據(jù),并解釋二元因變量和一或多個描述事物特征的自變量之間的關(guān)系。logistic 回歸可以檢測的問題類型如下:
體重每超出標準體重一磅或每天每抽一包煙對得肺癌概率(是或否)的影響。
卡路里攝入、脂肪攝入和年齡對心臟病是否有影響(是或否)?
在判別分析中,兩個或多個集合和簇等可作為先驗類別,然后根據(jù)度量的特征把一個或多個新的觀察結(jié)果分類成已知的類別。判別分析對每個對應(yīng)類中的預(yù)測器分布
X 分別進行建模,然后使用貝葉斯定理將其轉(zhuǎn)換成根據(jù) X 的值評估對應(yīng)類別的概率。此類模型可以是線性判別分析(Linear
Discriminant Analysis),也可以是二次判別分析(Quadratic Discriminant Analysis)。
線性判別分析(LDA):為每個觀察結(jié)果計算「判別值」來對它所處的響應(yīng)變量類進行分類。這些分值可以通過找到自變量的線性連接來獲得。它假設(shè)每個類別的觀察結(jié)果都從多變量高斯分布中獲取,預(yù)測器變量的協(xié)方差在響應(yīng)變量 Y 的所有 k 級別中都很普遍。
二次判別分析(QDA):提供另外一種方法。和 LDA 類似,QDA 假設(shè) Y 每個類別的觀察結(jié)果都從高斯分布中獲取。但是,與 LDA 不同的是,QDA 假設(shè)每個類別具備自己的協(xié)方差矩陣。也就是說,預(yù)測器變量在 Y 的所有 k 級別中不是普遍的。
3. 重采樣方法
重采樣方法(Resampling)包括從原始數(shù)據(jù)樣本中提取重復(fù)樣本。這是一種統(tǒng)計推斷的非參數(shù)方法。即,重采樣不使用通用分布來逼近地計算概率 p 的值。
重采樣基于實際數(shù)據(jù)生成一個獨特的采樣分布。它使用經(jīng)驗性方法,而不是分析方法,來生成該采樣分布。重采樣基于數(shù)據(jù)所有可能結(jié)果的無偏樣本獲取無偏估計。為了理解重采樣的概念,你應(yīng)該先了解自助法(Bootstrapping)和交叉驗證(Cross-Validation):
自助法(Bootstrapping)適用于多種情況,如驗證預(yù)測性模型的性能、集成方法、偏差估計和模型方差。它通過在原始數(shù)據(jù)中執(zhí)行有放回取樣而進行數(shù)據(jù)采樣,使用「未被選中」的數(shù)據(jù)點作為測試樣例。我們可以多次執(zhí)行該操作,然后計算平均值作為模型性能的估計。
交叉驗證用于驗證模型性能,通過將訓練數(shù)據(jù)分成 k 部分來執(zhí)行。我們將 k-1 部分作為訓練集,「留出」的部分作為測試集。將該步驟重復(fù) k 次,最后取 k 次分值的平均值作為性能估計。
通常對于線性模型而言,普通最小二乘法是擬合數(shù)據(jù)時主要的標準。下面 3 個方法可以提供更好的預(yù)測準確率和模型可解釋性。
4. 子集選擇
該方法將挑選 p 個預(yù)測因子的一個子集,并且我們相信該子集和所需要解決的問題十分相關(guān),然后我們就能使用該子集特征和最小二乘法擬合模型。
最佳子集的選擇:我們可以為 p 個預(yù)測因子的每個組合擬合單獨的 OLS 回歸,然后再考察各模型擬合的情況。該算法分為兩個階段:(1)擬合包含
k 個預(yù)測因子的所有模型,其中 k
為模型的最大長度;(2)使用交叉驗證預(yù)測損失選擇單個模型。使用驗證或測試誤差十分重要,且不能簡單地使用訓練誤差評估模型的擬合情況,這因為 RSS
和 R^2 隨變量的增加而單調(diào)遞增。最好的方法就是通過測試集中最高的 R^2 和最低的 RSS 來交叉驗證地選擇模型。
前向逐步地選擇會考慮 p
個預(yù)測因子的一個較小子集。它從不含預(yù)測因子的模型開始,逐步地添加預(yù)測因子到模型中,直到所有預(yù)測因子都包含在模型。添加預(yù)測因子的順序是根據(jù)不同變量對模型擬合性能提升的程度來確定的,我們會添加變量直到再沒有預(yù)測因子能在交叉驗證誤差中提升模型。
后向逐步選擇先從模型中所有 p 預(yù)測器開始,然后迭代地移除用處最小的預(yù)測器,每次移除一個。
混合法遵循前向逐步方法,但是在添加每個新變量之后,該方法可能還會移除對模型擬合無用的變量。
5. Shrinkage
這種方法涉及到使用所有 p
個預(yù)測因子進行建模,然而,估計預(yù)測因子重要性的系數(shù)將根據(jù)最小二乘誤差向零收縮。這種收縮也稱之為正則化,它旨在減少方差以防止模型的過擬合。由于我們使用不同的收縮方法,有一些變量的估計將歸零。因此這種方法也能執(zhí)行變量的選擇,將變量收縮為零最常見的技術(shù)就是
Ridge 回歸和 Lasso 回歸。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03