
機(jī)器學(xué)習(xí)故事匯-線性回歸算法
今天咱們要來嘮的是機(jī)器學(xué)習(xí)中最基本也是最重要的算法之一線性回歸,正當(dāng)此時迪哥正在前往銀行的路上,準(zhǔn)備辦理貸款(低保),到了之后銀行問了我兩件事,年齡和工資都多少呀?(特征)當(dāng)?shù)玫搅私Y(jié)果后告訴我我們只能貸給你100塊,別問為什么!機(jī)器算的?。C(jī)器你拿毛線算的100快?)
這個圖就是機(jī)器如何進(jìn)行預(yù)測的(回歸)它會根據(jù)一票子兄弟貸款的歷史數(shù)據(jù)(年齡和工資分別對應(yīng)于X1與X2)找出來最好的擬合線(面)來進(jìn)行預(yù)測,這樣你的數(shù)據(jù)來了之后直接帶入進(jìn)去就可以得出來該給你多少錢了。
我們用兩個參數(shù)來分別對應(yīng)于工資和年齡,控制它們對結(jié)果的影響大小,這里做了一個整合是把偏置項(xiàng)和權(quán)重參數(shù)項(xiàng)放到了一起(加了個X0讓其都等于1)
要想讓銀行能開的下去,那就得少遇到點(diǎn)麻煩,迪哥這么大碗就給我100塊(真實(shí)的指標(biāo)應(yīng)該為200塊)肯定是要砸場子的,所以我們的目標(biāo)是要讓得到的預(yù)測值跟真實(shí)值越接近越好。
既然說到誤差了,咱們就來好好嘮一下,首先銀行的目標(biāo)得讓誤差越小越好,這樣才能夠使得我們的結(jié)果是越準(zhǔn)確的。那么這個誤差有什么規(guī)律可循嗎?
咱們先來說說這個誤差為啥會服從高斯分布呢,這個事就得從我們是怎么認(rèn)為一個事發(fā)生的概率來說了,正常情況下你去銀行貸款差不多都是一個符合你的數(shù)字吧,極小的情況下能出現(xiàn)類似迪哥的情況(100塊都不給我),還是極小的情況下能像對待馬云似的給你幾個億吧,所以銀行給你貸款的誤差項(xiàng)理論上都是在較小范圍內(nèi)浮動的,要么多了一點(diǎn),要么少了一點(diǎn)。所以我們認(rèn)為該誤差是可以服從高斯分布的(正太分布)。
那為啥會獨(dú)立呢?獨(dú)立的意思就是說迪哥來貸款了,恰好馬云也來了,但是我倆不認(rèn)識啊(其實(shí)他認(rèn)識我,我不認(rèn)識他),所以我倆在貸款的時候不會因?yàn)轳R云而對我產(chǎn)生什么影響,也不會因?yàn)槲覍︸R云產(chǎn)生什么影響,這就是獨(dú)立!
同分布又是啥呢?我和馬云來的是一家銀行吧,這家銀行的系統(tǒng)只有一個,所以它在預(yù)測的時候是按照同樣的方式來的,這就是我們的數(shù)據(jù)是在同一個分布下去建模的。
既然誤差服從了高斯分布我們就把它進(jìn)行展開,上式的意思就是我去貸款,在它這兩組參數(shù)的控制下得到的貸款金額恰好是等于真實(shí)情況下就該給我這么多錢的概率。(預(yù)測值和真實(shí)值對應(yīng)的可能性大?。┠敲次覀儺?dāng)然希望這個概率越大越好呀,越大代表越準(zhǔn)確呀。
(怎么又來了一堆數(shù)學(xué)。。。沒人數(shù)學(xué)就不是機(jī)器學(xué)習(xí)啦)咱們繼續(xù)來看,咋又突然出來了個似然函數(shù)呀,咱們先來說一說它是個什么東西。比如說你今天去賭場了,然后你不知道能不能贏錢,你就在門口蹲著,出來一個人你就問一下,哥們贏錢了嗎(然后挨了一頓揍),連續(xù)出來5個人都告訴你贏錢了,那么你就會認(rèn)為我去賭錢也肯定會贏錢。這個的意思就是要利用樣本數(shù)據(jù)去估計(jì)你的參數(shù)應(yīng)該是什么,使得估計(jì)出來的參數(shù)盡可能的滿足(擬合)你的樣本。
對數(shù)似然它的意思和目標(biāo)很簡單,就是為了簡單求解,所以把比較復(fù)雜的乘法運(yùn)算轉(zhuǎn)換成了比較簡單的加法運(yùn)算。
一頓化簡,其實(shí)就是把原式給展開了,然后我們的目標(biāo)是要求最大值吧(什么樣的參數(shù)能夠使得跟我數(shù)據(jù)組合完之后是真實(shí)值的概率越大越好),對于化簡后的結(jié)果左邊是一個常數(shù)不用去管,右邊是一個恒正的(因?yàn)橛衅椒巾?xiàng))但是前面還有一個負(fù)號呀,讓這樣的數(shù)什么時候能取最大值呀?只有負(fù)號后面的取最小值才可以呀!
到這里我們終于推導(dǎo)出來了,銀行只需要做一件事就可以了,那就是最小化這個函數(shù)(目標(biāo)函數(shù)),其實(shí)說白了就是要讓我們的預(yù)測值和真實(shí)值之間的差異越小越好,這就是最小二乘法!
接下來就是如何求解呢?通常我們?nèi)デ笃珜?dǎo)就可以了,因?yàn)闃O值點(diǎn)通常都是在偏導(dǎo)處取得,對我們的目標(biāo)函數(shù)求偏導(dǎo),并且讓其等于0,這樣我們就能找到最終參數(shù)的解應(yīng)該是什么了!到這里小伙伴們可能感覺到竟然真能求出這個解,那這個解不就是我們想要的參數(shù)嘛,得到了它銀行就有救啦!
至此我們通過了一系列的推導(dǎo)得出了線性回歸的最終解法,但是這個解可以說是數(shù)學(xué)上的一個巧合,并不是所有問題都可以直接求解的,下回咱們再談?wù)勅绾伍g接的求最優(yōu)解~
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10