
邏輯回歸算法學(xué)習(xí)與思考
本文是作者對(duì)于邏輯回歸算法的學(xué)習(xí)和思考,主要介紹:邏輯回歸的算法介紹、邏輯回歸的數(shù)學(xué)原理、邏輯回歸的實(shí)際應(yīng)用、邏輯回歸的總結(jié)以及網(wǎng)絡(luò)安全場景預(yù)測,歡迎大家參考討論。
邏輯回歸的算法介紹
邏輯回歸(Logistic regression)是機(jī)器學(xué)習(xí)分類算法的其中一種,核心思想是利用現(xiàn)有數(shù)據(jù)對(duì)分類邊界建立回歸方程,以此進(jìn)行分類?;貧w可以理解為最佳擬合,是一種選擇最優(yōu)分類的算法。
邏輯歸回中會(huì)有一些新詞匯需要理解。
h函數(shù): 根據(jù)輸入的數(shù)據(jù)預(yù)測類別的函數(shù),Andrew Ng的公開課中稱為hypothesis function。
j函數(shù): 我們需要一個(gè)機(jī)制去評(píng)估我們的h函數(shù)的好壞,j函數(shù)的作用是評(píng)估h函數(shù)的好壞,一般這個(gè)函數(shù)稱為損失函數(shù)(loss function)或者錯(cuò)誤函數(shù)(error function)。
邏輯回歸的數(shù)學(xué)原理
h函數(shù)相關(guān)(預(yù)測函數(shù))
首先,我們先看看邏輯回歸的預(yù)測函數(shù),h函數(shù)!
其中含有θ (又稱:theta)的變量為(當(dāng)x0=1時(shí),可以進(jìn)行矩陣變換):
h函數(shù)的原型函數(shù)為sigmoid函數(shù),展示如下:
sigmoid方程的圖形如下,sigmoid函數(shù)的取值范圍為 (0,1)
這里進(jìn)行下小結(jié),邏輯回歸的預(yù)測函數(shù)使用sigmoid函數(shù)作為原型函數(shù),然后對(duì)sigmoid函數(shù)的x進(jìn)行替換,替換為一個(gè)多元一次方程。其中多元一次方程的θ為我要尋找最優(yōu)組合的內(nèi)容。
j函數(shù)相關(guān)
j函數(shù)的目標(biāo)就是找到一組最佳θ,使得J(θ)的值最小。
我們可以利用梯度下降算法來求得J(θ)的值最小,根據(jù)梯度下降法可得θ的更新過程。j=0 時(shí),代表更新j向量的第0分量,j=1 時(shí),代表更新j向量的第1分量,以此類,為了方便理解,可以把j看成數(shù)組vector_j,j=0,就是更新vector_j[0]。α為學(xué)習(xí)步長。
經(jīng)過一些數(shù)學(xué)推導(dǎo)的最終形式如下(推導(dǎo)過程為對(duì)θ求偏導(dǎo)數(shù))。
ps:xj為x向量的第j分量,還可以理解為x數(shù)組的第j項(xiàng),其實(shí)下圖是對(duì)θ數(shù)組的第j項(xiàng)進(jìn)行更新的算式,然而真正代碼角度是對(duì)整個(gè)θ數(shù)組進(jìn)行更新,也就是下下圖的樣子。
當(dāng)我們把上式向量化處理就得到了代碼可以處理的形式。
對(duì)比著代碼看(代碼出自《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》)
這里進(jìn)行下小結(jié),我們?yōu)榱藢ふ易罴训摩冉M合,設(shè)置了J(θ)函數(shù),我們利用已知數(shù)據(jù)(建模的訓(xùn)練數(shù)據(jù))來尋找最優(yōu)的θ組合使得J(θ)最小,而我們找最優(yōu)θ組合的算法為梯度下降算法。
邏輯回歸的實(shí)際應(yīng)用
目前單機(jī)使用機(jī)器學(xué)習(xí)算法的python庫為sklearn庫,實(shí)例如下。
使用該模型,需要手工調(diào)整函數(shù)的參數(shù),這個(gè)需要對(duì)算法進(jìn)行理解。
邏輯回歸的總結(jié)
Logistic Regression算法作為一個(gè)二分類算法,主要解決的是線性可分的問題,對(duì)于多分類算法,可以利用Softmax Regression算法。
Softmax Regression是一般化的Logistic Regression,可以把Logistic Regression看成Softmax Regression的特例。
那么Softmax Regression和Logistic Regression該怎么選擇呢?參考Stanford的文章的內(nèi)容。
Softmax 回歸 vs. k 個(gè)二元分類器
如果你在開發(fā)一個(gè)音樂分類的應(yīng)用,需要對(duì)k種類型的音樂進(jìn)行識(shí)別,那么是選擇使用 softmax 分類器呢,還是使用 logistic 回歸算法建立 k 個(gè)獨(dú)立的二元分類器呢?
這一選擇取決于你的類別之間是否互斥,例如,如果你有四個(gè)類別的音樂,分別為:古典音樂、鄉(xiāng)村音樂、搖滾樂和爵士樂,那么你可以假設(shè)每個(gè)訓(xùn)練樣本只會(huì)被打上一個(gè)標(biāo)簽(即:一首歌只能屬于這四種音樂類型的其中一種),此時(shí)你應(yīng)該使用類別數(shù) k = 4 的softmax回歸。(如果在你的數(shù)據(jù)集中,有的歌曲不屬于以上四類的其中任何一類,那么你可以添加一個(gè)“其他類”,并將類別數(shù) k 設(shè)為5。)
如果你的四個(gè)類別如下:人聲音樂、舞曲、影視原聲、流行歌曲,那么這些類別之間并不是互斥的。例如:一首歌曲可以來源于影視原聲,同時(shí)也包含人聲 。這種情況下,使用4個(gè)二分類的 logistic 回歸分類器更為合適。這樣,對(duì)于每個(gè)新的音樂作品 ,我們的算法可以分別判斷它是否屬于各個(gè)類別。
現(xiàn)在我們來看一個(gè)計(jì)算視覺領(lǐng)域的例子,你的任務(wù)是將圖像分到三個(gè)不同類別中。(i) 假設(shè)這三個(gè)類別分別是:室內(nèi)場景、戶外城區(qū)場景、戶外荒野場景。你會(huì)使用sofmax回歸還是 3個(gè)logistic 回歸分類器呢? (ii) 現(xiàn)在假設(shè)這三個(gè)類別分別是室內(nèi)場景、黑白圖片、包含人物的圖片,你又會(huì)選擇 softmax 回歸還是多個(gè) logistic 回歸分類器呢?
在第一個(gè)例子中,三個(gè)類別是互斥的,因此更適于選擇softmax回歸分類器 。而在第二個(gè)例子中,建立三個(gè)獨(dú)立的 logistic回歸分類器更加合適。
網(wǎng)絡(luò)安全場景下的實(shí)踐
邏輯回歸算法作為一個(gè)二分類機(jī)器學(xué)習(xí)算法,主要優(yōu)勢(shì)是學(xué)習(xí)速度快,算法好理解,預(yù)測速度快等特點(diǎn),并且神經(jīng)網(wǎng)絡(luò)在神經(jīng)元上也是采用的是邏輯回歸算法,因此在這個(gè)深度學(xué)習(xí)的大背景下,安全人員還是要學(xué)習(xí)邏輯回歸算法。
對(duì)于在安全攻防上使用邏輯回歸算法,我們先要明白邏輯回歸算法的本質(zhì):邏輯回歸是分類算法。
吸星是安全在機(jī)器學(xué)習(xí)實(shí)踐上一個(gè)非常好的例子,由于吸星使用的是樸素貝葉斯分類算法,那么吸星能不能使用邏輯回顧呢?效果如何呢?這是值得實(shí)踐的。
異常流量識(shí)別,由于瞬時(shí)流量或者流量區(qū)間中會(huì)存在非常多的屬性,而且異常流量識(shí)別屬于二分類,邏輯回歸對(duì)于異常流量監(jiān)測問題,這也是非常值得實(shí)踐的。
網(wǎng)站異常URL識(shí)別,對(duì)于一個(gè)網(wǎng)站,URL的形式具有一定特征的,那么如果被種植了webshell,那么webshell的URL可能會(huì)與正常URL存在差異,因此利用此邏輯回歸也是能解決這類問題的。
其實(shí)總結(jié)起來就是,只要每一條數(shù)據(jù)可以有多個(gè)屬性,就可以利用邏輯回歸。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03