
最小二乘法,相信大家都不陌生,統(tǒng)計(jì)學(xué)中很是常見,而且其理論相對(duì)簡單,用途也很廣泛。今天小編就給大家具體介紹一下最小二乘法。
一、最小二乘概念
最小二乘,或者也可以叫做最小平方和,它目的就是通過最小化誤差的平方和,使得擬合對(duì)象無限接近目標(biāo)對(duì)象。也就意味著,最小二乘法可以用于對(duì)函數(shù)的擬合。
最小二乘法是勒讓德( A. M. Legendre)于1805年在其著作《計(jì)算慧星軌道的新方法》中提出的。
在線性回歸中,最小二乘法就是試圖找到一條直線,使所有樣本到直線的歐氏距離之和最小。更直觀的解釋:
假設(shè)有一條直線y=ax+b,要在這條直線上找到一點(diǎn),距離(x0.y0)這個(gè)點(diǎn)的距離最短。如果用絕對(duì)值的方法尋找,也就是取min(|y?y0|+|x?x0|),由于絕對(duì)值最小為0.所以最小的情況就是x=x0或者y=y0處。
如果用平方和的方法尋找,就是取min(y?y0)2+(x?x0)2.可以看出該式是兩點(diǎn)間距離公式,也就是距離的概念。那么最短的距離,就是點(diǎn)到直線的垂線。
二、最小二乘核心思想
最小二乘的主要思想就是求解未知參數(shù),使得理論值與觀測值之差(即誤差,或者說殘差)的平方和達(dá)到最?。?
三、直線擬合/多元線性回歸
求導(dǎo)計(jì)算最小值是通用解法,但矩陣法比代數(shù)法要簡潔,且矩陣運(yùn)算可以取代循環(huán),所以現(xiàn)在很多書和機(jī)器學(xué)習(xí)庫都是用的矩陣法來做最小二乘法。
故損失函數(shù)定義為:(系數(shù)1/2是為了簡化計(jì)算添加的,求跡前和求跡后值不變)
應(yīng)用矩陣跡的計(jì)算公式:
四、最小二乘法的適用場景
當(dāng)樣本量m很少,小于特征數(shù)n的時(shí)候,這時(shí)擬合方程是欠定的,需要使用LASSO。當(dāng)m=n時(shí),用方程組求解。當(dāng)m>n時(shí),擬合方程是超定的,可以使用最小二乘法。
但是同時(shí)最小二乘也具有局限性:
1.最小二乘法需要計(jì)算(XTX)?1逆矩陣,有可能逆矩陣不存在,這樣就沒有辦法直接用最小二乘法。
2.如果是樣本特征n非常的大的情況,計(jì)算逆矩陣是一個(gè)極為耗時(shí)的工作,甚至是不可行,通常不超過10000個(gè)特征。
3.若擬合函數(shù)不是線性的,則無法使用最小二乘法,這時(shí)就需要通過一些技巧轉(zhuǎn)化為線性才能使用。
五、最小二乘實(shí)現(xiàn)
/* 最小二乘法的實(shí)現(xiàn) C++版 命令行輸入數(shù)據(jù)文件 最后輸入x得到預(yù)測的y值 */ #include<iostream> #include<fstream> #include<vector> using namespace std; class LeastSquare { double b0, b1; public: LeastSquare(const vector<double>& x, const vector<double>& y) { double t1 = 0, t2 = 0, t3 = 0, t4 = 0; for (int i = 0; i<x.size(); ++i) { t1 += x[i] * x[i]; t2 += x[i]; t3 += x[i] * y[i]; t4 += y[i]; } b0 = (t1*t4 - t2*t3) / (t1*x.size() - t2*t2); // 求得 B0 b1 = (t3*x.size() - t2*t4) / (t1*x.size() - t2*t2); // 求得 B1 } double getY(const double x) const { return b0+b1*x; } void print() const { if (b1>=0) cout << "y = " << b0 << "+" << b1 << 'x' << "\n"; else cout << "y = " << b0 << "" << b1 << 'x' << "\n"; } }; int main(int argc, char *argv[]) { if (argc != 2) { cout << " data.txt don't exit " << endl; return -1; } else { vector<double> x; vector<double> y; int count = 1; ifstream in(argv[1]); for (double d; in >> d; count++) if (count % 2 == 1) x.push_back(d); else y.push_back(d); LeastSquare ls(x, y); ls.print(); cout << "Input x:\n"; double x0; while (cin >> x0) { cout << "y = " << ls.getY(x0) << endl; cout << "Input x:\n"; } } int endline; cin >> endline; }
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03