
Hello大家好,上回講到數(shù)據(jù)清洗工作已經(jīng)完成,在建立模型之前,我想看看這些數(shù)據(jù)的大致情況,專業(yè)一點(diǎn)的說(shuō)法叫做數(shù)據(jù)探索,就是對(duì)已有數(shù)據(jù)集的一個(gè)了解。最簡(jiǎn)單的探索,看看最大值、最小值、方差、均值、中位數(shù)這些,當(dāng)然,這主要是針對(duì)年齡這種數(shù)值型的數(shù)據(jù),由于之前清洗數(shù)據(jù)的時(shí)候,已經(jīng)對(duì)年齡的上下限做出來(lái)限制,所以最大值最小值都在預(yù)期之內(nèi),至于均值和中位數(shù),可能很多人搞不太清這兩者的區(qū)別。 大多數(shù)人對(duì)均值比較熟悉,上學(xué)的時(shí)候用的也比較多,下邊我們可以舉個(gè)例子來(lái)區(qū)分探索一下,比如說(shuō)有5個(gè)姑娘,年齡分別是24歲,24歲,28歲,29歲,30歲,那么她們的平均年齡是27歲,而年齡的中位數(shù)很明顯是28歲,兩者并不相同,畫一個(gè)分布圖的話,能明顯看出是一個(gè)右偏分布,如果擴(kuò)展到數(shù)據(jù)量更大的數(shù)據(jù)集里,畫出分布是右偏分布,就能得出這樣一個(gè)結(jié)論,這樣一批妹子中間,年紀(jì)稍大一點(diǎn)的妹子占多數(shù)。如果我比較喜歡御姐型的妹子,我可能已經(jīng)在偷著樂(lè)了,年紀(jì)稍大的妹子多一點(diǎn),御姐就可能會(huì)多一點(diǎn)啊,哈哈哈……當(dāng)然,這只是假設(shè)還有概率,還不能這么開心的笑! (你的好友靈魂畫手已上線)
好啦,清洗和簡(jiǎn)單的探索做完了,下面該建立一個(gè)模型來(lái)做進(jìn)一步的分析,挑選出哪些妹子才是和我比較搭的。這里稍稍有點(diǎn)糾結(jié),是做個(gè)分類呢還是做個(gè)聚類呢?雖然這兩類模型從名字上看差不多,但是實(shí)際上差別可大著呢,分類模型是有監(jiān)督的模型,提前已經(jīng)知道了有幾類,每個(gè)類有哪些特征。而聚類一般是無(wú)監(jiān)督模型,提前并不知道有幾類,需要根據(jù)每條數(shù)據(jù)的特征來(lái)尋找數(shù)據(jù)間的相似性,然后把相近的數(shù)據(jù)聚到一起,至于最后會(huì)形成幾類,那就要看最開始把類的個(gè)數(shù)設(shè)定成幾了,而且也不保證聚類的個(gè)數(shù)或者說(shuō)最后的結(jié)果一定是對(duì)的。 比如說(shuō)給妹子分類這件事,如果我事先設(shè)定要聚成兩類,那妹子們就會(huì)被分成兩類;如果我設(shè)定聚成四類,妹子們就會(huì)被分成四類;如果我再瘋狂一點(diǎn),把妹子們聚成了十八類,那妹子們就會(huì)被分成十八類;至于這么分合理不合理,實(shí)踐之后才能知道了。
我自己思考了一下,覺得做分類模型有點(diǎn)麻煩,要先提前確定妹子們的類型,我jio著,妹子肯定不能只是簡(jiǎn)單粗暴的給分成御姐型和蘿莉型兩個(gè)類型,至于妹子究竟有多少個(gè)類型,恐怕還沒有人能給個(gè)準(zhǔn)確答案;然后呢,還要提前找好特征,找特征也很麻煩,我真的不知道有哪些特征的妹子是屬于哪個(gè)類型的,最后再按照符合的特征給妹子分類,所以我選了一個(gè)懶一點(diǎn)的辦法,那就做個(gè)聚類好了,先簡(jiǎn)單把妹子聚成四類。當(dāng)然這樣也會(huì)有問(wèn)題的,聚成四類后發(fā)現(xiàn)類別給聚少了咋辦?那就把需要再聚類的那部分?jǐn)?shù)據(jù)集再做一次聚類,很輕松嘛!
開始建模型
K-Means這個(gè)算法是聚類算法中最簡(jiǎn)單的算法沒有之一,就用它了!這個(gè)算法的原理那是相當(dāng)?shù)暮?jiǎn)單,例如我要把妹子分成四類,那就先選四個(gè)中心,專業(yè)術(shù)語(yǔ)叫質(zhì)心,然后計(jì)算數(shù)據(jù)集中每個(gè)數(shù)據(jù)點(diǎn)到每個(gè)質(zhì)心的距離,這個(gè)計(jì)算量是很大的,但是不用擔(dān)心,不用自己算,有計(jì)算機(jī)給算,它特別擅長(zhǎng)這種計(jì)算,而且我這點(diǎn)數(shù)據(jù)量對(duì)計(jì)算機(jī)來(lái)說(shuō),都不夠給他它預(yù)熱的,瞬間就能出來(lái)結(jié)果。結(jié)果出來(lái)后,每個(gè)數(shù)據(jù)點(diǎn)都有了四個(gè)質(zhì)心的距離數(shù)據(jù),然后這些數(shù)據(jù)點(diǎn)會(huì)選擇距離自己最近的那個(gè)質(zhì)心作為自己的質(zhì)心,這樣就有了最原始的四個(gè)組,專業(yè)術(shù)語(yǔ)里也叫做簇!到這一步模型還沒有結(jié)束,因?yàn)槲覀冋业倪@些中心不一定在剛剛聚成的簇的真正中心位置,這時(shí)候就需要再計(jì)算一下每個(gè)簇真正的質(zhì)心在哪里了,算出來(lái)之后,四個(gè)初始的質(zhì)心就轉(zhuǎn)移到了剛剛計(jì)算出來(lái)的質(zhì)心位置,看到這里有沒有一點(diǎn)熟悉的感覺,是的,下一步又要計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到新質(zhì)心的距離了,然后再重新聚類,再計(jì)算更新的質(zhì)心,這樣迭代下去,直到找到最優(yōu)質(zhì)心,聚類出最優(yōu)的簇!
這樣解釋這個(gè)原理,有點(diǎn)抽象,舉例子解釋一下,比如說(shuō)我的數(shù)據(jù)里包含了100個(gè)妹子,既然我要聚成四類,就隨機(jī)在100個(gè)妹子中挑選了四個(gè)人作為質(zhì)心,然后開始計(jì)算剩下的96個(gè)妹子中每個(gè)妹子與那四個(gè)質(zhì)心妹子的相似性,就是前邊原理里提到的距離,96個(gè)妹子每個(gè)妹子都被計(jì)算了和四個(gè)質(zhì)心妹子的距離,然后每個(gè)妹子和哪個(gè)質(zhì)心妹子更相似,就把這個(gè)非質(zhì)心妹子歸到和她最相似的質(zhì)心妹子那一簇里,最初始的四個(gè)簇就分出來(lái)了,這時(shí)候新的問(wèn)題出現(xiàn)了,發(fā)現(xiàn)最初確定的質(zhì)心妹子并不是這一簇里最有代表性的妹子,其他妹子的特征更能代表這一整個(gè)簇,通過(guò)計(jì)算,更能代表這一簇的妹子成了新一輪的質(zhì)心,質(zhì)心變動(dòng)了,每個(gè)非質(zhì)心妹子與新質(zhì)心妹子的相似度就需要重新計(jì)算,計(jì)算出四個(gè)新質(zhì)心后,開始計(jì)算這一輪剩下的96個(gè)妹子與新質(zhì)心妹子的相似度,然后重新聚類,進(jìn)入新一輪迭代!這樣一個(gè)只有100條記錄的數(shù)據(jù)集,一直迭代到質(zhì)心不再發(fā)生變化不需要很長(zhǎng)的時(shí)間,如果數(shù)據(jù)集很大的話,要迭代到質(zhì)心不再發(fā)生變化,可能需要特別長(zhǎng)的時(shí)間,這時(shí)候就需要算法的參數(shù)出場(chǎng)來(lái)進(jìn)行控制。
不管怎么說(shuō),我成功的把妹子們分成了四類,有一類妹子是我理想的類型,然而網(wǎng)站給出的匹配度有高有低,那么應(yīng)該是我的信息不符合一些妹子的要求?,F(xiàn)在是到哪一步了?開始給妹子發(fā)消息嘛?當(dāng)然不是!人靠衣裝馬靠鞍,沒見面之前得在依據(jù)事實(shí)的前提下包裝一下自己,讓自己的個(gè)人信息和妹子的要求相近那么一點(diǎn)點(diǎn),要注意的是造假是不行的,那是欺騙,我這樣的社會(huì)主義好青年是不會(huì)做這樣的事情的。盡量滿足妹子的要求,實(shí)在滿足不了的也不能硬說(shuō)自己滿足啊。
第四步 進(jìn)入溝通
Ok,個(gè)人信息美化好之后,就可以給妹子們發(fā)信息啦,我是很希望有很多妹子能給我回復(fù),然而,理想是豐滿的,現(xiàn)實(shí)是骨感的,雖然提前做了工作,回復(fù)我的妹子也沒有那么多,中間偶爾還有托的消息,可見我前邊數(shù)據(jù)清洗的時(shí)候并沒有能成功的清理出去所有的虛假信息。這種信息只能是由我人肉篩選了,還好這類信息不多。
終于,我發(fā)出的消息有了回音,新的問(wèn)題又出現(xiàn)了,作為一個(gè)只有工作沒有生活的技術(shù)宅,我不知道能跟妹子聊點(diǎn)啥,尷尬!幸好不是面對(duì)面的聊,所以妹子那邊拋出一個(gè)話題,比如說(shuō)什么微博熱搜知乎熱搜頭條抖音之類的,我都要一邊去找這些熱搜一邊和妹子聊天,感覺有點(diǎn)心累!然而,能難倒數(shù)據(jù)分析師的問(wèn)題還真的不多,我直接寫了幾個(gè)爬蟲,每天爬一遍各大熱搜,和妹子聊天之前做好功課,至少不被動(dòng),有話題可以和妹子聊,感覺好了很多。
當(dāng)然并不是所有妹子都聊熱搜,還有一些妹子聊人生聊工作聊價(jià)值觀,總之,這段時(shí)間是我本職工作之外各種知識(shí)急速擴(kuò)展的階段,感覺自己又到了高考前的人生知識(shí)巔峰階段,上知天文下知地理中間還知各種政治新聞娛樂(lè)八卦,如果不做數(shù)據(jù)分析師,去做專業(yè)陪聊都毫無(wú)壓力,不管對(duì)方想聊啥,瞬間調(diào)出資料接住對(duì)方拋過(guò)來(lái)的梗。即使如此,也不是所有給我回復(fù)的妹子都能一直聊下去,有些價(jià)值觀是非觀之類的問(wèn)題,還是要堅(jiān)持自我的,聊不來(lái)也沒辦法,強(qiáng)行迎合別人最后也很難有盡如人意的結(jié)果。
折騰了這么久,終于到了離開計(jì)算機(jī)去見面約會(huì)的階段了,已經(jīng)記不起來(lái)自己有多久沒有約會(huì)過(guò)的人,心情既興奮又緊張,還有一點(diǎn)點(diǎn)的缺乏信心(好吧,我承認(rèn),其實(shí)心里老沒底了,方的不行)。不過(guò),還是那句話,沒有什么是我不能分析的,這不過(guò)是從對(duì)群體的分析轉(zhuǎn)到了對(duì)個(gè)體分析的階段,沒什么特殊嘛!給自己打氣完畢,開始約會(huì)前的準(zhǔn)備工作:根據(jù)線上聊天時(shí)妹子表現(xiàn)出的喜好,選一個(gè)她一直想去又因?yàn)楦鞣N原因而沒有去成的餐廳,帶上一個(gè)她可能會(huì)喜歡但是又不是很貴重的小禮物;準(zhǔn)備一些她可能會(huì)感興趣的話題,避免到時(shí)候因?yàn)榫o張不知道說(shuō)點(diǎn)什么,尬聊太消耗感情了!然后還有就是我自己要好好收拾一下,去找村頭的Tony老師理一個(gè)精神的發(fā)型,準(zhǔn)備一套清爽整潔不做作的衣服。提前幾分鐘到約定好的餐廳坐等!
我準(zhǔn)備了這么多,整個(gè)過(guò)程也還算順利沒有什么尷尬的事情發(fā)生,不過(guò)可能我的真人版和妹子的真人版都有點(diǎn)不太符合雙方的預(yù)期,約會(huì)后聯(lián)系也就終止了!但是一次的失敗對(duì)我來(lái)說(shuō)不算什么,想想我工作中算法模型跑不成功,調(diào)參調(diào)到懷疑人生的時(shí)候都沒有輕言放棄,這么一點(diǎn)點(diǎn)挫折算什么,繼續(xù)開始下一個(gè),繼續(xù)迭代!
每次迭代都能學(xué)習(xí)到經(jīng)驗(yàn)教訓(xùn),經(jīng)過(guò)一遍一遍的約會(huì)然后回去復(fù)盤,終于我找到了一個(gè)可以確定關(guān)系的妹子,和家里打電話的時(shí)候得到了母上大人的肯定,我心甚慰??!而且,妹子和我是同行,都是數(shù)據(jù)分析師,只不過(guò)行業(yè)不一樣。后來(lái)關(guān)系穩(wěn)定后的一次閑聊,我才知道,女朋友也是因?yàn)楹臀翌愃频脑颍脭?shù)據(jù)分析的方法去分析各種交友類網(wǎng)站的數(shù)據(jù),跑個(gè)算法來(lái)找目標(biāo),好吧,原來(lái)我也是別人數(shù)據(jù)集中的一個(gè)樣本來(lái)著!幸運(yùn)的是,我們正好在彼此的數(shù)據(jù)集中,經(jīng)過(guò)層層篩選,成為了對(duì)方那個(gè)對(duì)的人!從此以后,家不再只是租來(lái)的一間空屋子,有燈光,有溫暖,有個(gè)我喜歡的人和我一起討論數(shù)據(jù)分析討論各種算法模型!
(完結(jié) 本故事純屬虛構(gòu),如有雷同,純屬巧合)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03