99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀用Python進行機器學習小案例

用Python進行機器學習小案例

2016-11-24

用Python進行機器學習小案例

本文是用Python編程語言來進行機器學習小實驗的第一篇。主要內容如下：

讀入數據并清洗數據

探索理解輸入數據的特點

分析如何為學習算法呈現(xiàn)數據

選擇正確的模型和學習算法

評估程序表現(xiàn)的準確性

讀入數據 Reading the data

當讀入數據時，你將面臨處理無效或丟失數據的問題，好的處理方式相比于精確的科學來說，更像是一種藝術。因為這部分處理適當可以適用于更多的機器學習算法并因此提高成功的概率。

用NumPy有效地咀嚼數據，用SciPy智能地吸收數據

Python是一個高度優(yōu)化的解釋性語言，在處理數值繁重的算法方面要比C等語言慢很多，那為什么依然有很多科學家和公司在計算密集的領域將賭注下在Python上呢？因為Python可以很容易地將數值計算任務分配給C或Fortran這些底層擴展。其中NumPy和SciPy就是其中代表。NumPy提供了很多有效的數據結構，比如array，而SciPy提供了很多算法來處理這些arrays。無論是矩陣操作、線性代數、最優(yōu)化問題、聚類，甚至快速傅里葉變換，該工具箱都可以滿足需求。

讀入數據操作

這里我們以網頁點擊數據為例，第一維屬性是小時，第二維數據是點擊個數。

importscipyasspdata= sp.genfromtxt('web_traffic.tsv',delimiter='\t')

預處理和清洗數據

當你準備好了你的數據結構用于存儲處理數據后，你可能需要更多的數據來確保預測活動，或者擁有了很多數據，你需要去思考如何更好的進行數據采樣。在將原始數據（rawdata）進行訓練之前，對數據進行提煉可以起到很好的作用，有時，一個用提煉的數據的簡單的算法要比使用原始數據的高級算法的表現(xiàn)效果要好。這個工作流程被稱作特征工程（feature engineering）。Creative and intelligent that you are, you will immediately see the results。

由于數據集中可能還有無效數值（nan），我們可以事先看一下無效值的個數：

hours=data[:,0]hits=data[:,1]sp.sum(sp.isnan(hits))

用下面的方法將其過濾掉：

#cleaning the datahours= hours[~sp.isnan(hits)]hits= hits[~sp.isnan(hits)]

為了將數據給出一個直觀的認識，用Matplotlib的pyplot包來將數據呈現(xiàn)出來。

importmatplotlib.pyplotaspltplt.scatter(hours,hits)plt.title("Web traffic over the last month")plt.xlabel("Time")plt.ylabel("Hits/hour")plt.xticks([w*7*24for w in range(10)], ['week %i'%w for w in range(10)])plt.autoscale(tight=True)plt.grid()plt.show()

其顯示效果如下：

選擇合適的學習算法

選擇一個好的學習算法并不是從你的工具箱中的三四個算法中挑選這么簡單，實際上有更多的算法你可能沒有見過。所以這是一個權衡不同的性能和功能需求的深思熟慮的過程，比如執(zhí)行速度和準確率的權衡，,可擴展性和易用性的平衡。

現(xiàn)在，我們已經對數據有了一個直觀的認識，我們接下來要做的是找到一個真實的模型，并且能推斷未來的數據走勢。

用逼近誤差（approximation error）來選擇模型

在很多模型中選擇一個正確的模型，我們需要用逼近誤差來衡量模型預測性能，并用來選擇模型。這里，我們用預測值和真實值差值的平方來定義度量誤差：

deferror(f, x, y): returnsp.sum((f(x)-y)**2)

其中f表示預測函數。

用簡單直線來擬合數據

我們現(xiàn)在假設該數據的隱含模型是一條直線，那么我們還如何去擬合這些數據來使得逼近誤差最小呢？SciPy的polyfit()函數可以解決這個問題，給出x和y軸的數據，還有參數order（直線的order是1），該函數給出最小化逼近誤差的模型的參數。

fp1, residuals, rank,sv, rcond =sp.polyfit(hours, hits,1, full=True)

fp1是polyfit函數返回模型參數，對于直線來說，它是直線的斜率和截距。

如果polyfit的參數full為True的話，將得到擬合過程中更多有用的信息，這里只有residuals是我們感興趣的，它正是該擬合直線的逼近誤差。

然后將該線在圖中畫出來：

#fit straightlinemodel fp1, residuals, rank,sv, rcond =sp.polyfit(hours, hits,1, full=True) fStraight =sp.poly1d(fp1) #draw fitting straightlinefx =sp.linspace(0,hours[-1],1000) # generateX-valuesforplotting plt.plot(fx, fStraight(fx), linewidth=4) plt.legend(["d=%i"% fStraight.order],loc="upper left")

用更高階的曲線來擬合數據

用直線的擬合是不是很好呢？用直線擬合的誤差是317,389,767.34，這說明我們的預測結果是好還是壞呢？我們不妨用更高階的曲線來擬合數據，看是不是能得到更好的效果。

fCurve3p =sp.polyfit(hours, hits,3) fCurve3 =sp.poly1d(fCurve3p)print"Error of Curve3 line:",error(fCurve3,hours,hits) fCurve10p =sp.polyfit(hours, hits,10) fCurve10 =sp.poly1d(fCurve10p)print"Error of Curve10 line:",error(fCurve10,hours,hits) fCurve50p =sp.polyfit(hours, hits,50) fCurve50 =sp.poly1d(fCurve50p)print"Error of Curve50 line:",error(fCurve50,hours,hits)

其逼近誤差為：

Error of straight line: 317389767.34

Error of Curve2 line: 179983507.878

Error of Curve3 line: 139350144.032

Error of Curve10 line: 121942326.364

Error of Curve50 line: 109504587.153

這里我們進一步看一下實驗結果，看看我們的預測曲線是不是很好的擬合數據了呢？尤其是看一下多項式的階數從10到50的過程中，模型與數據貼合太緊，這樣模型不但是去擬合數據背后的模型，還去擬合了噪聲數據，導致曲線震蕩劇烈，這種現(xiàn)象叫做過擬合。

小結

從上面的小實驗中，我們可以看出，如果是直線擬合的話就太簡單了，但多項式的階數從10到50的擬合又太過了，那么是不是2、3階的多項式就是最好的答案呢？但我們同時發(fā)現(xiàn)，如果我們以它們作為預測的話，那它們又會無限制增長下去。所以，我們最后反省一下，看來我們還是沒有真正地理解數據。

衡量性能指標

作為一個ML的初學者，在衡量學習器性能方面會遇到很多問題或錯誤。如果是拿你的訓練數據來進行測試的話，這可能是一個很簡單的問題；而當你遇到的不平衡的訓練數據時，數據就決定了預測的成功與否。

回看數據

我們再仔細分析一下數據，看一下再week3到week4之間，好像是有一個明顯的拐點，所以我們把week3.5之后的數據分離出來，訓練一條新的曲線。

inflection=3.5*7*24#the time of week3.5is an inflectiontime1= hours[:inflection]value1= hits[:inflection]time2= hours[inflection:]value2= hits[inflection:]fStraight1p= sp.polyfit(time1,value1,1)fStraight1= sp.poly1d(fStraight1p)fStraight2p= sp.polyfit(time2,value2,1)fStraight2= sp.poly1d(fStraight2p)

顯然，這兩條直線更好的描述了數據的特征，雖然其逼近誤差還是比那些高階多項式曲線的誤差要大，但是這種方式的擬合可以更好的獲取數據的發(fā)展趨勢。相對于高階多項式曲線的過擬合現(xiàn)象，對于低階的曲線，由于沒有很好的描述數據，而導致欠擬合的情形。所以為了更好的描述數據特征，使用2階曲線來擬合數據，來避免過擬合和欠擬合現(xiàn)象的發(fā)生。

訓練與測試

我們訓練得到了一個模型，這里就是我們擬合的兩個曲線。為了驗證我們訓練的模型是否準確，我們可以在最初訓練時將一部分訓練數據拿出來，當做測試數據來使用，而不僅僅通過逼近誤差來判別模型好壞。

總結

這一小節(jié)作為機器學習小實驗的引入，主要傳遞兩點意思：

1、要訓練一個學習器，必須理解和提煉數據，將注意力從算法轉移到數據上

2、學習如何進行機器學習實驗，不要混淆訓練和測試數據

CDA數據分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

機器學習特征過擬合欠擬合聚類特征工程準確率 matplotlib

數據分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統(tǒng)競選大戲開鑼，川普當選的奇跡會再發(fā)生嗎？

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數據分析學習

數據分析師資訊

京公網安備 11010802034615號經營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數1：配置參數 // 參數2：回調，回調的第一個參數驗證碼對象，之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式，包括：float，popup width: "280px", https: true // 更多配置參數說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

用Python進行機器學習小案例

數據分析師考試動態(tài)

CDA報考指南

數據分析學習

數據分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數據分析師報考條件詳解與準備指南 ...

【CDA干貨】數據透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數據分析師：連接數據與業(yè)務的價值轉化者 ...

SQL 在預測分析中的應用：從數據查詢到趨勢預判 ...

數據查詢結束后：分析師的收尾工作與價值深化 ...

CDA 數據分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數據背后的時間 ...

year_month數據類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數據分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數據趨勢 ...

備戰(zhàn) CDA 數據分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統(tǒng)計學方法在市場調研數據中的深度應用 ...

CDA數據分析師證書考試全攻略

剖析 CDA 數據分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉日期：解鎖數據 ...

CDA 數據分析師視角：從數據迷霧中探尋商業(yè)真相 ...

CDA 數據分析師：開啟數據職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數據分析師公眾號

CDA考試中心小程序

CDA數據分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

用Python進行機器學習小案例

數據分析師考試動態(tài)

CDA報考指南

數據分析學習

數據分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數據分析師報考條件詳解與準備指南 ...

【CDA干貨】數據透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數據分析師：連接數據與業(yè)務的價值轉化者 ...

SQL 在預測分析中的應用：從數據查詢到趨勢預判 ...

數據查詢結束后：分析師的收尾工作與價值深化 ...

CDA 數據分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數據背后的時間 ...

year_month數據類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數據分析中的核心應用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數據趨勢 ...

備戰(zhàn) CDA 數據分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...

統(tǒng)計學方法在市場調研數據中的深度應用 ...

CDA數據分析師證書考試全攻略

剖析 CDA 數據分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉日期：解鎖數據 ...

CDA 數據分析師視角：從數據迷霧中探尋商業(yè)真相 ...

CDA 數據分析師：開啟數據職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關于我們

CDA數據分析師公眾號

CDA考試中心小程序

CDA數據分析師App下載

備戰(zhàn) CDA 數據分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應對策略 ...