
入門 | 10個例子帶你了解機器學習中的線性代數
本文介紹了 10 個常見機器學習案例,這些案例需要用線性代數才能得到最好的理解。
線性代數是數學的分支學科,涉及矢量、矩陣和線性變換。
它是機器學習的重要基礎,從描述算法操作的符號到代碼中算法的實現,都屬于該學科的研究范圍。
雖然線性代數是機器學習領域不可或缺的一部分,但二者的緊密關系往往無法解釋,或只能用抽象概念(如向量空間或特定矩陣運算)解釋。
閱讀這篇文章后,你將會了解到:
如何在處理數據時使用線性代數結構,如表格數據集和圖像。
數據準備過程中用到的線性代數概念,例如 one-hot 編碼和降維。
深度學習、自然語言處理和推薦系統(tǒng)等子領域中線性代數符號和方法的深入使用。
讓我們開始吧。
這 10 個機器學習案例分別是:
1. Dataset and Data Files 數據集和數據文件
2. Images and Photographs 圖像和照片
3. One-Hot Encoding one-hot 編碼
4. Linear Regression 線性回歸
5. Regularization 正則化
6. Principal Component Analysis 主成分分析
7. Singular-Value Decomposition 奇異值分解
8. Latent Semantic Analysis 潛在語義分析
9. Recommender Systems 推薦系統(tǒng)
10. Deep Learning 深度學習
1. 數據集和數據文件
在機器學習中,你可以在數據集上擬合一個模型。
這是表格式的一組數字,其中每行代表一組觀察值,每列代表觀測的一個特征。
例如,下面這組數據是鳶尾花數據集的一部分
數據集地址:http://archive.ics.uci.edu/ml/datasets/Iris
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
這些數據實際上是一個矩陣:線性代數中的一個關鍵數據結構。
接下來,將數據分解為輸入數據和輸出數據,來擬合一個監(jiān)督機器學習模型(如測量值和花卉品種),得到矩陣(X)和矢量(y)。矢量是線性代數中的另一個關鍵數據結構。
每行長度相同,即每行的數據個數相同,因此我們可以說數據是矢量化的。這些行數據可以一次性或成批地提供給模型,并且可以預先配置模型,以得到固定寬度的行數據。
2. 圖像和照片
也許你更習慣于在計算機視覺應用中處理圖像或照片。
你使用的每個圖像本身都是一個固定寬度和高度的表格結構,每個單元格有用于表示黑白圖像的 1 個像素值或表示彩色圖像的 3 個像素值。
照片也是線性代數矩陣的一種。
與圖像相關的操作,如裁剪、縮放、剪切等,都是使用線性代數的符號和運算來描述的。
3. one-hot 編碼
有時機器學習中要用到分類數據。
可能是用于解決分類問題的類別標簽,也可能是分類輸入變量。
對分類變量進行編碼以使它們更易于使用并通過某些技術進行學習是很常見的。one-hot 編碼是一種常見的分類變量編碼。
one-hot 編碼可以理解為:創(chuàng)建一個表格,用列表示每個類別,用行表示數據集中每個例子。在列中為給定行的分類值添加一個檢查或「1」值,并將「0」值添加到所有其他列。
例如,共計 3 行的顏色變量:
red
green
blue
...
這些變量可能被編碼為:
red, green, blue
1,0,0
0,1,0
0,0,1
...
每一行都被編碼為一個二進制矢量,一個被賦予「0」或「1」值的矢量。這是一個稀疏表征的例子,線性代數的一個完整子域。
4. 線性回歸
線性回歸是一種用于描述變量之間關系的統(tǒng)計學傳統(tǒng)方法。
該方法通常在機器學習中用于預測較簡單的回歸問題的數值。
描述和解決線性回歸問題有很多種方法,即找到一組系數,用這些系數與每個輸入變量相乘并將結果相加,得出最佳的輸出變量預測。
如果您使用過機器學習工具或機器學習庫,解決線性回歸問題的最常用方法是通過最小二乘優(yōu)化,這一方法是使用線性回歸的矩陣分解方法解決的(例如 LU 分解或奇異值分解)。
即使是線性回歸方程的常用總結方法也使用線性代數符號:
y = A . b
其中,y 是輸出變量,A 是數據集,b 是模型系數。
5. 正則化
在應用機器學習時,我們往往尋求最簡單可行的模型來發(fā)揮解決問題的最佳技能。
較簡單的模型通常更擅長從具體示例泛化到未見過的數據。
在涉及系數的許多方法中,例如回歸方法和人工神經網絡,較簡單的模型通常具有較小的系數值。
一種常用于模型在數據擬合時盡量減小系數值的技術稱為正則化,常見的實現包括正則化的 L2 和 L1 形式。
這兩種正則化形式實際上是系數矢量的大小或長度的度量,是直接脫胎于名為矢量范數的線性代數方法。
6. 主成分分析
通常,數據集有許多列,列數可能達到數十、數百、數千或更多。
對具有許多特征的數據進行建模具有一定的挑戰(zhàn)性。而且,從包含不相關特征的數據構建的模型通常不如用最相關的數據訓練的模型。
自動減少數據集列數的方法稱為降維,其中也許最流行的方法是主成分分析法(簡稱 PCA)。
該方法在機器學習中,為可視化和模型創(chuàng)建高維數據的投影。
PCA 方法的核心是線性代數的矩陣分解方法,可能會用到特征分解,更廣義的實現可以使用奇異值分解(SVD)。
7. 奇異值分解
如上所述,正如該方法名稱所示,它是源自線性代數領域的矩陣分解方法。
該方法在線性代數中有廣泛的用途,可直接應用于特征選擇、可視化、降噪等方面。
8. 潛在語義分析
在用于處理文本數據的機器學習子領域(稱為自然語言處理),通常將文檔表示為詞出現的大矩陣。
例如,矩陣的列可以是詞匯表中的已知詞,行可以是文本的句子、段落、頁面或文檔,矩陣中的單元格標記為單詞出現的次數或頻率。
這是文本的稀疏矩陣表示。矩陣分解方法(如奇異值分解)可以應用于此稀疏矩陣,該分解方法可以提煉出矩陣表示中相關性最強的部分。以這種方式處理的文檔比較容易用來比較、查詢,并作為監(jiān)督機器學習模型的基礎。
這種形式的數據準備稱為潛在語義分析(簡稱 LSA),也稱為潛在語義索引(LSI)。
9. 推薦系統(tǒng)
涉及產品推薦的預測建模問題被稱為推薦系統(tǒng),這是機器學習的一個子領域。
例如,基于你在亞馬遜上的購買記錄和與你類似的客戶的購買記錄向你推薦書籍,或根據你或與你相似的用戶在 Netflix 上的觀看歷史向你推薦電影或電視節(jié)目。
推薦系統(tǒng)的開發(fā)主要涉及線性代數方法。一個簡單的例子就是使用歐式距離或點積之類的距離度量來計算稀疏顧客行為向量之間的相似度。
像奇異值分解這樣的矩陣分解方法在推薦系統(tǒng)中被廣泛使用,以提取項目和用戶數據的有用部分,以備查詢、檢索及比較。
10. 深度學習
人工神經網絡是一種非線性機器學習算法,它受大腦中信息處理元素的啟發(fā),其有效性已經在一系列問題中得到驗證,其中最重要的是預測建模。
深度學習是近期出現的、使用最新方法和更快硬件的人工神經網絡的復興,這一方法使得在非常大的數據集上開發(fā)和訓練更大更深的(更多層)網絡成為可能。深度學習方法通常會在機器翻譯、照片字幕、語音識別等一系列具有挑戰(zhàn)性的領域取得最新成果。
神經網絡的執(zhí)行涉及線性代數數據結構的相乘和相加。如果擴展到多個維度,深度學習方法可以處理向量、矩陣,甚至輸入和系數的張量,此處的張量是一個兩維以上的矩陣。
線性代數是描述深度學習方法的核心,它通過矩陣表示法來實現深度學習方法,例如 Google 的 TensorFlow Python 庫,其名稱中包含「tensor」一詞。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03