
數(shù)據(jù)統(tǒng)計(jì)學(xué)習(xí)的5個(gè)基本流程
統(tǒng)計(jì)學(xué)、大數(shù)據(jù)應(yīng)用很廣泛,常常被提及!統(tǒng)計(jì)學(xué)習(xí)也有一定的規(guī)律流程,下面我們大圣眾包小編分享一位朋友關(guān)于統(tǒng)計(jì)學(xué)習(xí)流程步驟的看法,看看他怎么說。
統(tǒng)計(jì)學(xué)習(xí)現(xiàn)在市面上談?wù)摰降?a href='/map/shujuwajue/' style='color:#000;font-size:inherit;'>數(shù)據(jù)挖掘基本上都是基于統(tǒng)計(jì)學(xué)習(xí)的監(jiān)督學(xué)習(xí)或非監(jiān)督學(xué)習(xí)問題。尤其以監(jiān)督學(xué)習(xí)應(yīng)用面更廣。
統(tǒng)計(jì)學(xué)習(xí)的一般流程
得到一個(gè)有限的數(shù)據(jù)集合
確定所有的學(xué)習(xí)模型集合
確定模型選擇的準(zhǔn)則,就是學(xué)習(xí)的策略
實(shí)現(xiàn)求解最優(yōu)模型的算法并通過學(xué)習(xí)方法選擇最優(yōu)模型
利用學(xué)習(xí)得到的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行分析或預(yù)測(cè)
步驟一:得到一個(gè)有限的數(shù)據(jù)集合
涉及到以下多個(gè)流程:
1、數(shù)據(jù)的采集
2、原始數(shù)據(jù)的格式化、標(biāo)準(zhǔn)化
3、原始去噪,去掉錯(cuò)誤的值(而不是誤差值,這里又涉及到一個(gè)復(fù)雜的問題,如何界定錯(cuò)誤數(shù)據(jù))
4、預(yù)處理(針對(duì)具體需要研究的問題、抽取相應(yīng)地特征組成需要研究的數(shù)據(jù)集合)
步驟二:確定所有的學(xué)習(xí)模型集合
這個(gè)問題取決于我們選擇怎么樣的學(xué)習(xí)方法。常見得學(xué)習(xí)方法有:
1、感知機(jī)模型
2、k近鄰法
3、樸素貝葉斯法
4、決策樹
5、邏輯斯諦回歸和最大熵模型
7、提升方法AdaBoost
8、EM算法
9、隱馬爾可夫模型
10、條件隨機(jī)場(chǎng)
而且這些算法還可以進(jìn)行變異、組合然后形成新的算法模型。也是通常認(rèn)為中數(shù)據(jù)挖掘比較核心的部分。
步驟三:確定模型選擇的策略
一般來說,當(dāng)你確定了你的學(xué)習(xí)方法后,在學(xué)習(xí)的過程中會(huì)產(chǎn)生很多個(gè)模型。而如何在這些模型中間挑選最優(yōu)的模型,成為了我們亟待解決的問題。
一般衡量一個(gè)模型的優(yōu)秀程度我們使用兩個(gè)指標(biāo):
1、擬合能力
2、泛化能力
擬合能力
表示模型的計(jì)算結(jié)果和實(shí)際結(jié)果的相差程度,我們一般使用風(fēng)險(xiǎn)函數(shù)來衡量。而風(fēng)險(xiǎn)函數(shù)是損失函數(shù)的期望。所以我們其實(shí)是使用損失函數(shù)來衡量一個(gè)模型的期望。
常見的損失函數(shù):
1、0-1損失函數(shù)
2、平分損失函數(shù)
3、絕對(duì)值損失函數(shù)
4、對(duì)數(shù)損失函數(shù)
損失函數(shù)越小,模型的擬合能力就越好。
泛化能力泛化能力是指模型對(duì)新數(shù)據(jù)的預(yù)測(cè)能力。一般來說,越復(fù)雜的模型的擬合能力越強(qiáng),但是泛化能力越弱。所以我們需要選擇一個(gè)適當(dāng)復(fù)雜度的模型,使其泛化能力和擬合能力都足夠強(qiáng)。
而衡量一個(gè)模型同時(shí)具有較好地泛化能力和擬合能力,我們一般用結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)。
結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)是在風(fēng)險(xiǎn)函數(shù)的基礎(chǔ)上面加上一個(gè)罰項(xiàng)。通過罰項(xiàng)來降低復(fù)雜度高的模型的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)值。從而達(dá)到篩選出合適的復(fù)雜度的模型的目的。
罰項(xiàng)一般取特征空間w的范數(shù),一般有:
1、L0范數(shù)
2、L1范數(shù)
3、L2范數(shù)
4、核范數(shù)…
步驟四:實(shí)現(xiàn)求解最優(yōu)模型的算法并通過學(xué)習(xí)方法選擇最優(yōu)模型
求解最優(yōu)模型的算法其實(shí)就是求解結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)最小值得算法,即結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)最優(yōu)化的問題。
如果結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)在我們所關(guān)心的區(qū)域中是凸函數(shù)的話,那么任何局部最小解也是全局最優(yōu)解?,F(xiàn)在已經(jīng)有穩(wěn)定,快速的數(shù)值計(jì)算方法來求二次可微地凸函數(shù)的最小值。
然而,很多時(shí)候我們沒有辦法通過結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)直接算出它的最小值。我們只能通過一些迭代的方式獲得局部最優(yōu)解。
常見的通過迭代的方式獲得局部最優(yōu)解的算法有:
1、梯度下降法
2、牛頓法
3、共軛梯度法
4、線性搜索
5、置信域方法
另外還有一些算法:
1、模擬退火
2、遺傳算法
3、類免疫算法
4、演化策略
5、差異演化算法
6、微粒群算法
步驟五:利用學(xué)習(xí)得到的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行分析或預(yù)測(cè)
到這一步一般來說已經(jīng)成功了,然后往往現(xiàn)實(shí)是殘酷的,辛辛苦苦20年,一朝回到解放前。
往往學(xué)習(xí)得到的模型在實(shí)際使用過程當(dāng)中并不是那么的理想。這里面有很多種原因:
有可能是原始數(shù)據(jù)的原因
有可能是特征選擇的原因
有可能是模型的原因
有可能是最優(yōu)模型算法的問題
有可能是代碼錯(cuò)誤
總之,以上的所有步驟的所有細(xì)節(jié)都可能導(dǎo)致你的模型不夠優(yōu)秀。這就需要你再次的思考這個(gè)問題,去不斷的優(yōu)化你的模型。直到得到一個(gè)不錯(cuò)的模型。
小結(jié)
其實(shí)數(shù)據(jù)挖掘涉及的東西遠(yuǎn)比我上面說的這點(diǎn)東西多的多,我上面提到的還只是監(jiān)督學(xué)習(xí)。就光我上面提到的幾個(gè)步驟。其實(shí)每一個(gè)步驟都有很多很多東西可以講,可以研究,工程方面的、算法理論方面的等等等等。
一入數(shù)據(jù)挖掘深似海,從此奮斗到天明。
數(shù)據(jù)挖掘還是很有意思的,你可以用機(jī)器的力量、數(shù)學(xué)的力量理解世界的運(yùn)行規(guī)律。去預(yù)測(cè)他或者利用你研究到的東西做一些有意思的事情。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03