99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀從“脫單”這件小事看數(shù)據(jù)分析與機(jī)器學(xué)習(xí)(下)
從“脫單”這件小事看數(shù)據(jù)分析與機(jī)器學(xué)習(xí)(下)
2019-07-09
收藏
從“脫單”這件小事看數(shù)據(jù)分析與<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>(下)

Hello大家好,上回講到數(shù)據(jù)清洗工作已經(jīng)完成,在建立模型之前,我想看看這些數(shù)據(jù)的大致情況,專業(yè)一點(diǎn)的說(shuō)法叫做數(shù)據(jù)探索,就是對(duì)已有數(shù)據(jù)集的一個(gè)了解。最簡(jiǎn)單的探索,看看最大值、最小值、方差、均值、中位數(shù)這些,當(dāng)然,這主要是針對(duì)年齡這種數(shù)值型的數(shù)據(jù),由于之前清洗數(shù)據(jù)的時(shí)候,已經(jīng)對(duì)年齡的上下限做出來(lái)限制,所以最大值最小值都在預(yù)期之內(nèi),至于均值和中位數(shù),可能很多人搞不太清這兩者的區(qū)別。 大多數(shù)人對(duì)均值比較熟悉,上學(xué)的時(shí)候用的也比較多,下邊我們可以舉個(gè)例子來(lái)區(qū)分探索一下,比如說(shuō)有5個(gè)姑娘,年齡分別是24歲,24歲,28歲,29歲,30歲,那么她們的平均年齡是27歲,而年齡的中位數(shù)很明顯是28歲,兩者并不相同,畫一個(gè)分布圖的話,能明顯看出是一個(gè)右偏分布,如果擴(kuò)展到數(shù)據(jù)量更大的數(shù)據(jù)集里,畫出分布是右偏分布,就能得出這樣一個(gè)結(jié)論,這樣一批妹子中間,年紀(jì)稍大一點(diǎn)的妹子占多數(shù)。如果我比較喜歡御姐型的妹子,我可能已經(jīng)在偷著樂(lè)了,年紀(jì)稍大的妹子多一點(diǎn),御姐就可能會(huì)多一點(diǎn)啊,哈哈哈……當(dāng)然,這只是假設(shè)還有概率,還不能這么開心的笑! (你的好友靈魂畫手已上線)

從“脫單”這件小事看數(shù)據(jù)分析與<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>(下)
從“脫單”這件小事看數(shù)據(jù)分析與<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>(下)

好啦,清洗和簡(jiǎn)單的探索做完了,下面該建立一個(gè)模型來(lái)做進(jìn)一步的分析,挑選出哪些妹子才是和我比較搭的。這里稍稍有點(diǎn)糾結(jié),是做個(gè)分類呢還是做個(gè)聚類呢?雖然這兩類模型從名字上看差不多,但是實(shí)際上差別可大著呢,分類模型是有監(jiān)督的模型,提前已經(jīng)知道了有幾類,每個(gè)類有哪些特征。而聚類一般是無(wú)監(jiān)督模型,提前并不知道有幾類,需要根據(jù)每條數(shù)據(jù)的特征來(lái)尋找數(shù)據(jù)間的相似性,然后把相近的數(shù)據(jù)聚到一起,至于最后會(huì)形成幾類,那就要看最開始把類的個(gè)數(shù)設(shè)定成幾了,而且也不保證聚類的個(gè)數(shù)或者說(shuō)最后的結(jié)果一定是對(duì)的。 比如說(shuō)給妹子分類這件事,如果我事先設(shè)定要聚成兩類,那妹子們就會(huì)被分成兩類;如果我設(shè)定聚成四類,妹子們就會(huì)被分成四類;如果我再瘋狂一點(diǎn),把妹子們聚成了十八類,那妹子們就會(huì)被分成十八類;至于這么分合理不合理,實(shí)踐之后才能知道了。

從“脫單”這件小事看數(shù)據(jù)分析與<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>(下)

我自己思考了一下,覺得做分類模型有點(diǎn)麻煩,要先提前確定妹子們的類型,我jio著,妹子肯定不能只是簡(jiǎn)單粗暴的給分成御姐型和蘿莉型兩個(gè)類型,至于妹子究竟有多少個(gè)類型,恐怕還沒有人能給個(gè)準(zhǔn)確答案;然后呢,還要提前找好特征,找特征也很麻煩,我真的不知道有哪些特征的妹子是屬于哪個(gè)類型的,最后再按照符合的特征給妹子分類,所以我選了一個(gè)懶一點(diǎn)的辦法,那就做個(gè)聚類好了,先簡(jiǎn)單把妹子聚成四類。當(dāng)然這樣也會(huì)有問(wèn)題的,聚成四類后發(fā)現(xiàn)類別給聚少了咋辦?那就把需要再聚類的那部分?jǐn)?shù)據(jù)集再做一次聚類,很輕松嘛!

開始建模型

K-Means這個(gè)算法是聚類算法中最簡(jiǎn)單的算法沒有之一,就用它了!這個(gè)算法的原理那是相當(dāng)?shù)暮?jiǎn)單,例如我要把妹子分成四類,那就先選四個(gè)中心,專業(yè)術(shù)語(yǔ)叫質(zhì)心,然后計(jì)算數(shù)據(jù)集中每個(gè)數(shù)據(jù)點(diǎn)到每個(gè)質(zhì)心的距離,這個(gè)計(jì)算量是很大的,但是不用擔(dān)心,不用自己算,有計(jì)算機(jī)給算,它特別擅長(zhǎng)這種計(jì)算,而且我這點(diǎn)數(shù)據(jù)量對(duì)計(jì)算機(jī)來(lái)說(shuō),都不夠給他它預(yù)熱的,瞬間就能出來(lái)結(jié)果。結(jié)果出來(lái)后,每個(gè)數(shù)據(jù)點(diǎn)都有了四個(gè)質(zhì)心的距離數(shù)據(jù),然后這些數(shù)據(jù)點(diǎn)會(huì)選擇距離自己最近的那個(gè)質(zhì)心作為自己的質(zhì)心,這樣就有了最原始的四個(gè)組,專業(yè)術(shù)語(yǔ)里也叫做簇!到這一步模型還沒有結(jié)束,因?yàn)槲覀冋业倪@些中心不一定在剛剛聚成的簇的真正中心位置,這時(shí)候就需要再計(jì)算一下每個(gè)簇真正的質(zhì)心在哪里了,算出來(lái)之后,四個(gè)初始的質(zhì)心就轉(zhuǎn)移到了剛剛計(jì)算出來(lái)的質(zhì)心位置,看到這里有沒有一點(diǎn)熟悉的感覺,是的,下一步又要計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到新質(zhì)心的距離了,然后再重新聚類,再計(jì)算更新的質(zhì)心,這樣迭代下去,直到找到最優(yōu)質(zhì)心,聚類出最優(yōu)的簇!

從“脫單”這件小事看數(shù)據(jù)分析與<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>(下)

這樣解釋這個(gè)原理,有點(diǎn)抽象,舉例子解釋一下,比如說(shuō)我的數(shù)據(jù)里包含了100個(gè)妹子,既然我要聚成四類,就隨機(jī)在100個(gè)妹子中挑選了四個(gè)人作為質(zhì)心,然后開始計(jì)算剩下的96個(gè)妹子中每個(gè)妹子與那四個(gè)質(zhì)心妹子的相似性,就是前邊原理里提到的距離,96個(gè)妹子每個(gè)妹子都被計(jì)算了和四個(gè)質(zhì)心妹子的距離,然后每個(gè)妹子和哪個(gè)質(zhì)心妹子更相似,就把這個(gè)非質(zhì)心妹子歸到和她最相似的質(zhì)心妹子那一簇里,最初始的四個(gè)簇就分出來(lái)了,這時(shí)候新的問(wèn)題出現(xiàn)了,發(fā)現(xiàn)最初確定的質(zhì)心妹子并不是這一簇里最有代表性的妹子,其他妹子的特征更能代表這一整個(gè)簇,通過(guò)計(jì)算,更能代表這一簇的妹子成了新一輪的質(zhì)心,質(zhì)心變動(dòng)了,每個(gè)非質(zhì)心妹子與新質(zhì)心妹子的相似度就需要重新計(jì)算,計(jì)算出四個(gè)新質(zhì)心后,開始計(jì)算這一輪剩下的96個(gè)妹子與新質(zhì)心妹子的相似度,然后重新聚類,進(jìn)入新一輪迭代!這樣一個(gè)只有100條記錄的數(shù)據(jù)集,一直迭代到質(zhì)心不再發(fā)生變化不需要很長(zhǎng)的時(shí)間,如果數(shù)據(jù)集很大的話,要迭代到質(zhì)心不再發(fā)生變化,可能需要特別長(zhǎng)的時(shí)間,這時(shí)候就需要算法的參數(shù)出場(chǎng)來(lái)進(jìn)行控制。

從“脫單”這件小事看數(shù)據(jù)分析與<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>(下)

不管怎么說(shuō),我成功的把妹子們分成了四類,有一類妹子是我理想的類型,然而網(wǎng)站給出的匹配度有高有低,那么應(yīng)該是我的信息不符合一些妹子的要求?,F(xiàn)在是到哪一步了?開始給妹子發(fā)消息嘛?當(dāng)然不是!人靠衣裝馬靠鞍,沒見面之前得在依據(jù)事實(shí)的前提下包裝一下自己,讓自己的個(gè)人信息和妹子的要求相近那么一點(diǎn)點(diǎn),要注意的是造假是不行的,那是欺騙,我這樣的社會(huì)主義好青年是不會(huì)做這樣的事情的。盡量滿足妹子的要求,實(shí)在滿足不了的也不能硬說(shuō)自己滿足啊。

第四步 進(jìn)入溝通

Ok,個(gè)人信息美化好之后,就可以給妹子們發(fā)信息啦,我是很希望有很多妹子能給我回復(fù),然而,理想是豐滿的,現(xiàn)實(shí)是骨感的,雖然提前做了工作,回復(fù)我的妹子也沒有那么多,中間偶爾還有托的消息,可見我前邊數(shù)據(jù)清洗的時(shí)候并沒有能成功的清理出去所有的虛假信息。這種信息只能是由我人肉篩選了,還好這類信息不多。

終于,我發(fā)出的消息有了回音,新的問(wèn)題又出現(xiàn)了,作為一個(gè)只有工作沒有生活的技術(shù)宅,我不知道能跟妹子聊點(diǎn)啥,尷尬!幸好不是面對(duì)面的聊,所以妹子那邊拋出一個(gè)話題,比如說(shuō)什么微博熱搜知乎熱搜頭條抖音之類的,我都要一邊去找這些熱搜一邊和妹子聊天,感覺有點(diǎn)心累!然而,能難倒數(shù)據(jù)分析師的問(wèn)題還真的不多,我直接寫了幾個(gè)爬蟲,每天爬一遍各大熱搜,和妹子聊天之前做好功課,至少不被動(dòng),有話題可以和妹子聊,感覺好了很多。

當(dāng)然并不是所有妹子都聊熱搜,還有一些妹子聊人生聊工作聊價(jià)值觀,總之,這段時(shí)間是我本職工作之外各種知識(shí)急速擴(kuò)展的階段,感覺自己又到了高考前的人生知識(shí)巔峰階段,上知天文下知地理中間還知各種政治新聞娛樂(lè)八卦,如果不做數(shù)據(jù)分析師,去做專業(yè)陪聊都毫無(wú)壓力,不管對(duì)方想聊啥,瞬間調(diào)出資料接住對(duì)方拋過(guò)來(lái)的梗。即使如此,也不是所有給我回復(fù)的妹子都能一直聊下去,有些價(jià)值觀是非觀之類的問(wèn)題,還是要堅(jiān)持自我的,聊不來(lái)也沒辦法,強(qiáng)行迎合別人最后也很難有盡如人意的結(jié)果。

從“脫單”這件小事看數(shù)據(jù)分析與<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>(下)

折騰了這么久,終于到了離開計(jì)算機(jī)去見面約會(huì)的階段了,已經(jīng)記不起來(lái)自己有多久沒有約會(huì)過(guò)的人,心情既興奮又緊張,還有一點(diǎn)點(diǎn)的缺乏信心(好吧,我承認(rèn),其實(shí)心里老沒底了,方的不行)。不過(guò),還是那句話,沒有什么是我不能分析的,這不過(guò)是從對(duì)群體的分析轉(zhuǎn)到了對(duì)個(gè)體分析的階段,沒什么特殊嘛!給自己打氣完畢,開始約會(huì)前的準(zhǔn)備工作:根據(jù)線上聊天時(shí)妹子表現(xiàn)出的喜好,選一個(gè)她一直想去又因?yàn)楦鞣N原因而沒有去成的餐廳,帶上一個(gè)她可能會(huì)喜歡但是又不是很貴重的小禮物;準(zhǔn)備一些她可能會(huì)感興趣的話題,避免到時(shí)候因?yàn)榫o張不知道說(shuō)點(diǎn)什么,尬聊太消耗感情了!然后還有就是我自己要好好收拾一下,去找村頭的Tony老師理一個(gè)精神的發(fā)型,準(zhǔn)備一套清爽整潔不做作的衣服。提前幾分鐘到約定好的餐廳坐等!

我準(zhǔn)備了這么多,整個(gè)過(guò)程也還算順利沒有什么尷尬的事情發(fā)生,不過(guò)可能我的真人版和妹子的真人版都有點(diǎn)不太符合雙方的預(yù)期,約會(huì)后聯(lián)系也就終止了!但是一次的失敗對(duì)我來(lái)說(shuō)不算什么,想想我工作中算法模型跑不成功,調(diào)參調(diào)到懷疑人生的時(shí)候都沒有輕言放棄,這么一點(diǎn)點(diǎn)挫折算什么,繼續(xù)開始下一個(gè),繼續(xù)迭代!

每次迭代都能學(xué)習(xí)到經(jīng)驗(yàn)教訓(xùn),經(jīng)過(guò)一遍一遍的約會(huì)然后回去復(fù)盤,終于我找到了一個(gè)可以確定關(guān)系的妹子,和家里打電話的時(shí)候得到了母上大人的肯定,我心甚慰??!而且,妹子和我是同行,都是數(shù)據(jù)分析師,只不過(guò)行業(yè)不一樣。后來(lái)關(guān)系穩(wěn)定后的一次閑聊,我才知道,女朋友也是因?yàn)楹臀翌愃频脑颍脭?shù)據(jù)分析的方法去分析各種交友類網(wǎng)站的數(shù)據(jù),跑個(gè)算法來(lái)找目標(biāo),好吧,原來(lái)我也是別人數(shù)據(jù)集中的一個(gè)樣本來(lái)著!幸運(yùn)的是,我們正好在彼此的數(shù)據(jù)集中,經(jīng)過(guò)層層篩選,成為了對(duì)方那個(gè)對(duì)的人!從此以后,家不再只是租來(lái)的一間空屋子,有燈光,有溫暖,有個(gè)我喜歡的人和我一起討論數(shù)據(jù)分析討論各種算法模型!

從“脫單”這件小事看數(shù)據(jù)分析與<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機(jī)器學(xué)習(xí)</a>(下)

(完結(jié) 本故事純屬虛構(gòu),如有雷同,純屬巧合)

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }