
作者 | Jason Brownlee整理 | CDA數(shù)據(jù)分析師
統(tǒng)計學和機器學習是兩個密切相關的領域。實際上,兩者之間的界限有時可能非常模糊。但是,有一些方法顯然屬于統(tǒng)計領域,不僅在機器學習項目中有用,而且非常有價值??梢怨降卣f,需要統(tǒng)計方法才能有效地通過機器學習預測建模項目工作。
機器學習和統(tǒng)計學是兩個緊密相關的研究領域。因此許多統(tǒng)計學家將機器學習稱為“ 應用統(tǒng)計學”或“ 統(tǒng)計學習 ”,而不是以計算機科學為中心的名稱。
所有的機器學習初學者都應該學習一點統(tǒng)計學的知識。下面有幾個精心挑選的例子來具體說明。
從一本流行的應用機器學習書《 Applied Predictive Modeling 》的開頭看一下這句話:
… the reader should have some knowledge of basic statistics, including variance, correlation, simple linear regression, and basic hypothesis testing (e.g. p-values and test statistics).
— Page vii, Applied Predictive Modeling, 2013
這是流行的《 Introduction to Statistical Learning 》一書中的另一個示例:
We expect that the reader will have had at least one elementary course in statistics.
— Page 9, An Introduction to Statistical Learning with Applications in R, 2013.
即使不是統(tǒng)計學的先決 條件,也需要一些原始的先驗知識,這可以從廣泛閱讀的“ Programming Collective Intelligence ”的引用中看出:
… this book does not assume you have any prior knowledge of […] or statistics. […] but having some knowledge of trigonometry and basic statistics will help you understand the algorithms.
— Page xiii, Programming Collective Intelligence: Building Smart Web 2.0 Applications, 2007.
為了能夠理解機器學習,需要對統(tǒng)計信息有一些基本的了解。
想要知道為什么會這樣,我們必須了解為什么首先需要統(tǒng)計領域。
原始觀測值本身就是數(shù)據(jù),但它們不是信息或知識。
數(shù)據(jù)引發(fā)了一些問題,例如:
盡管它們看起來很簡單,但必須回答這些問題才能將原始觀察結果轉化為我們可以使用和共享的信息。
除了原始數(shù)據(jù),我們還可以通過設計實驗來收集觀察數(shù)據(jù)。從這些實驗結果中,我們可能會遇到更復雜的問題,例如:
這些問題很重要。問題的答案對項目,利益相關者以及有效的決策都是至關重要的。
需要統(tǒng)計方法來找到關于數(shù)據(jù)的問題的答案。
我們可以看到,為了了解用于訓練機器學習模型的數(shù)據(jù)并解釋測試不同機器學習模型的結果,都需要統(tǒng)計方法。
這只是冰山一角,因為預測建模項目中的每個步驟都將需要使用統(tǒng)計方法。
統(tǒng)計學是數(shù)學的一個子領域。
它指的是處理數(shù)據(jù)和使用數(shù)據(jù)回答問題的方法的集合。
Statistics is the art of making numerical conjectures about puzzling questions. […] The methods were developed over several hundred years by people who were looking for answers to their questions.
— Page xiii, Statistics, Fourth Edition, 2007.
這是因為該領域包括處理數(shù)據(jù)的方法包,對于初學者而言,它看起來像是很大的東西,而且是不確定的。很難看出屬于統(tǒng)計方法的方法與屬于其他研究領域的方法之間的界限。通常,技術既可以是統(tǒng)計中的經(jīng)典方法,又可以是用于特征選擇或建模的現(xiàn)代算法。
盡管統(tǒng)計工作知識不需要深入的理論知識,但一些重要的且易于理解的定理可以為統(tǒng)計和概率之間的關系提供有價值的基礎。
兩個例子包括大數(shù)定律和中心極限定理;第一個有助于理解為什么較大的樣本通常更好,第二個則為我們?nèi)绾伪容^樣本之間的期望值(例如平均值)提供了基礎。
對于我們在實踐中使用的統(tǒng)計工具,將統(tǒng)計領域分為兩大類方法可能會有所幫助:用于匯總數(shù)據(jù)的描述性統(tǒng)計和用于從數(shù)據(jù)樣本中得出結論的推論統(tǒng)計。
Statistics allow researchers to collect information, or data, from a large number of people and then summarize their typical experience. […] Statistics are also used to reach conclusions about general differences between groups. […] Statistics can also be used to see if scores on two variables are related and to make predictions.
Pages ix-x, Statistics in Plain English, Third Edition, 2010.
描述性統(tǒng)計指的是將原始觀察匯總為我們可以理解和共享的信息的方法。
通常,我們將描述性統(tǒng)計視為對數(shù)據(jù)樣本的統(tǒng)計值的計算,以便總結數(shù)據(jù)樣本的屬性,例如共同的期望值(例如,均值或中位數(shù))和數(shù)據(jù)的傳播范圍(例如,方差或標準差)。
描述性統(tǒng)計信息還可能涵蓋可用于可視化數(shù)據(jù)樣本的圖形方法。圖表和圖形可以對觀察的形狀或分布以及變量之間如何相互關聯(lián)提供有用的定性理解。
推論統(tǒng)計是一些方法的統(tǒng)稱,這些方法可以幫助從較小的一組稱為樣本的觀測值中量化域或總體的屬性。
通常,我們認為推論統(tǒng)計是根據(jù)總體分布估算的數(shù)量,例如期望值或傳播數(shù)量。
更復雜的統(tǒng)計推斷工具可用于量化在給定假設的情況下觀察數(shù)據(jù)樣本的可能性。這些通常被稱為統(tǒng)計假設檢驗的工具,其中檢驗的基本假設稱為原假設。
給定我們可以假設的假設范圍以及我們可能施加在數(shù)據(jù)上的約束條件,以提高檢驗結果正確的能力或可能性,推理性統(tǒng)計方法的例子很多。
在下面的內(nèi)容中,展示了統(tǒng)計方法的一些特定示例,這些示例在預測建模問題的關鍵步驟中非常重要??梢怨降卣f,需要統(tǒng)計方法才能有效地通過機器學習方法完成預測建模的工作。
在預測建模問題中最大的影響力也許就是問題的框架。
這是問題類型的選擇,例如回歸或分類,也許是問題的輸入和輸出的結構和類型。
問題的框架并不總是很明顯。對于某個領域的新手,可能需要對該領域中的觀察結果進行大量探索。
對于可能不從常規(guī)角度看問題的領域專家,他們也可能會從多個角度考慮數(shù)據(jù)而獲取一些有用信息。
可以在問題分類期間幫助探索數(shù)據(jù)的統(tǒng)計方法包括:
數(shù)據(jù)理解意味著對變量的分布以及變量之間的關系有密切的了解。
其中一些知識可能來自領域專業(yè)知識,或者需要領域專業(yè)知識才能進行解釋。盡管如此,研究領域的專家和新手都將從實際處理領域問題中的實際觀察有所受益。
統(tǒng)計方法的兩個大分支用于幫助理解數(shù)據(jù)。他們是:
來自某個領域的觀察通常不是原始的。
盡管數(shù)據(jù)是數(shù)字的,但會受到可能破壞數(shù)據(jù)保真度的過程的影響,進而可能會影響使用該數(shù)據(jù)的任何下一步過程或模型。
一些示例包括:
識別和修復數(shù)據(jù)問題的過程稱為數(shù)據(jù)清理
統(tǒng)計方法用于數(shù)據(jù)清理,例如:
建模時,并非所有觀察值或所有變量都可能相關。
將數(shù)據(jù)范圍縮小到對做出預測最有用的那些元素的過程稱為數(shù)據(jù)選擇。
用于數(shù)據(jù)選擇的兩種統(tǒng)計方法包括:
數(shù)據(jù)通常不能直接用于建模。
通常需要進行一些轉換,以更改數(shù)據(jù)的形狀或結構,使其更適合問題的選定框架或學習算法。
使用統(tǒng)計方法進行數(shù)據(jù)準備。一些常見的示例包括:
預測建模問題的關鍵部分是評估學習方法。
在對模型訓練期間未看到的數(shù)據(jù)進行預測時,通常需要估計模型的技能。
通常,訓練和評估預測模型的過程的計劃稱為實驗設計。這是統(tǒng)計方法的整個子領域。
作為實施實驗設計的一部分,使用方法對數(shù)據(jù)集進行重新采樣,以便經(jīng)濟地利用可用數(shù)據(jù),從而估算模型的技能。
給定的機器學習算法通常具有一整套超參數(shù),這些超參數(shù)允許使用者根據(jù)特定問題而定制學習方法。
超參數(shù)的配置在本質(zhì)上通常是經(jīng)驗性的,而不是分析性的,需要大量的實驗才能評估不同的超參數(shù)的取值對模型效果的影響。
使用兩個統(tǒng)計子字段之一對不同的超參數(shù)配置之間的結果進行解釋和比較:
對于給定的預測建模問題,可能有不止一個機器學習算法適合于此問題。選擇一種方法作為解決方案的過程稱為模型選擇。這可能涉及項目利益相關者的一套標準,也包括對問題評估方法的估計技能的仔細解釋。
與模型配置一樣,出于模型選擇的目的,可以使用兩類統(tǒng)計方法來解釋不同模型的估計技能。他們是:
一旦對最終模型進行了訓練,就可以在使用或部署最終模型以對實際數(shù)據(jù)進行實際預測之前將其呈現(xiàn)給利益相關者。
呈現(xiàn)最終模型的一部分涉及呈現(xiàn)模型的估計方法。
估計統(tǒng)計領域的方法可用于通過使用公差區(qū)間和置信區(qū)間來量化機器學習模型的估計技能中的不確定性。
最后,是時候開始使用最終模型對我們不知道實際結果的新數(shù)據(jù)進行預測了。
作為進行預測的一部分,量化預測的置信度很重要。
就像模型表示過程一樣,我們可以使用估計統(tǒng)計領域的方法來量化此不確定性,例如置信區(qū)間和預測區(qū)間。
從上面的例子可以看到統(tǒng)計方法在整個預測建模項目過程中的重要性。 探索性的數(shù)據(jù)分析,數(shù)據(jù)匯總和數(shù)據(jù)可視化可用于幫助構建預測性建模問題并更好地理解數(shù)據(jù)。統(tǒng)計方法可用于清理和準備用于建模的數(shù)據(jù)。統(tǒng)計假設檢驗和估計的統(tǒng)計數(shù)據(jù)可以在模型的選擇和從最終模型展示的技能和預測幫助。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10