
Hello大家好,上回講到數(shù)據(jù)清洗工作已經(jīng)完成,在建立模型之前,我想看看這些數(shù)據(jù)的大致情況,專業(yè)一點(diǎn)的說(shuō)法叫做數(shù)據(jù)探索,就是對(duì)已有數(shù)據(jù)集的一個(gè)了解。最簡(jiǎn)單的探索,看看最大值、最小值、方差、均值、中位數(shù)這些,當(dāng)然,這主要是針對(duì)年齡這種數(shù)值型的數(shù)據(jù),由于之前清洗數(shù)據(jù)的時(shí)候,已經(jīng)對(duì)年齡的上下限做出來(lái)限制,所以最大值最小值都在預(yù)期之內(nèi),至于均值和中位數(shù),可能很多人搞不太清這兩者的區(qū)別。 大多數(shù)人對(duì)均值比較熟悉,上學(xué)的時(shí)候用的也比較多,下邊我們可以舉個(gè)例子來(lái)區(qū)分探索一下,比如說(shuō)有5個(gè)姑娘,年齡分別是24歲,24歲,28歲,29歲,30歲,那么她們的平均年齡是27歲,而年齡的中位數(shù)很明顯是28歲,兩者并不相同,畫(huà)一個(gè)分布圖的話,能明顯看出是一個(gè)右偏分布,如果擴(kuò)展到數(shù)據(jù)量更大的數(shù)據(jù)集里,畫(huà)出分布是右偏分布,就能得出這樣一個(gè)結(jié)論,這樣一批妹子中間,年紀(jì)稍大一點(diǎn)的妹子占多數(shù)。如果我比較喜歡御姐型的妹子,我可能已經(jīng)在偷著樂(lè)了,年紀(jì)稍大的妹子多一點(diǎn),御姐就可能會(huì)多一點(diǎn)啊,哈哈哈……當(dāng)然,這只是假設(shè)還有概率,還不能這么開(kāi)心的笑! (你的好友靈魂畫(huà)手已上線)
好啦,清洗和簡(jiǎn)單的探索做完了,下面該建立一個(gè)模型來(lái)做進(jìn)一步的分析,挑選出哪些妹子才是和我比較搭的。這里稍稍有點(diǎn)糾結(jié),是做個(gè)分類(lèi)呢還是做個(gè)聚類(lèi)呢?雖然這兩類(lèi)模型從名字上看差不多,但是實(shí)際上差別可大著呢,分類(lèi)模型是有監(jiān)督的模型,提前已經(jīng)知道了有幾類(lèi),每個(gè)類(lèi)有哪些特征。而聚類(lèi)一般是無(wú)監(jiān)督模型,提前并不知道有幾類(lèi),需要根據(jù)每條數(shù)據(jù)的特征來(lái)尋找數(shù)據(jù)間的相似性,然后把相近的數(shù)據(jù)聚到一起,至于最后會(huì)形成幾類(lèi),那就要看最開(kāi)始把類(lèi)的個(gè)數(shù)設(shè)定成幾了,而且也不保證聚類(lèi)的個(gè)數(shù)或者說(shuō)最后的結(jié)果一定是對(duì)的。 比如說(shuō)給妹子分類(lèi)這件事,如果我事先設(shè)定要聚成兩類(lèi),那妹子們就會(huì)被分成兩類(lèi);如果我設(shè)定聚成四類(lèi),妹子們就會(huì)被分成四類(lèi);如果我再瘋狂一點(diǎn),把妹子們聚成了十八類(lèi),那妹子們就會(huì)被分成十八類(lèi);至于這么分合理不合理,實(shí)踐之后才能知道了。
我自己思考了一下,覺(jué)得做分類(lèi)模型有點(diǎn)麻煩,要先提前確定妹子們的類(lèi)型,我jio著,妹子肯定不能只是簡(jiǎn)單粗暴的給分成御姐型和蘿莉型兩個(gè)類(lèi)型,至于妹子究竟有多少個(gè)類(lèi)型,恐怕還沒(méi)有人能給個(gè)準(zhǔn)確答案;然后呢,還要提前找好特征,找特征也很麻煩,我真的不知道有哪些特征的妹子是屬于哪個(gè)類(lèi)型的,最后再按照符合的特征給妹子分類(lèi),所以我選了一個(gè)懶一點(diǎn)的辦法,那就做個(gè)聚類(lèi)好了,先簡(jiǎn)單把妹子聚成四類(lèi)。當(dāng)然這樣也會(huì)有問(wèn)題的,聚成四類(lèi)后發(fā)現(xiàn)類(lèi)別給聚少了咋辦?那就把需要再聚類(lèi)的那部分?jǐn)?shù)據(jù)集再做一次聚類(lèi),很輕松嘛!
開(kāi)始建模型
K-Means這個(gè)算法是聚類(lèi)算法中最簡(jiǎn)單的算法沒(méi)有之一,就用它了!這個(gè)算法的原理那是相當(dāng)?shù)暮?jiǎn)單,例如我要把妹子分成四類(lèi),那就先選四個(gè)中心,專業(yè)術(shù)語(yǔ)叫質(zhì)心,然后計(jì)算數(shù)據(jù)集中每個(gè)數(shù)據(jù)點(diǎn)到每個(gè)質(zhì)心的距離,這個(gè)計(jì)算量是很大的,但是不用擔(dān)心,不用自己算,有計(jì)算機(jī)給算,它特別擅長(zhǎng)這種計(jì)算,而且我這點(diǎn)數(shù)據(jù)量對(duì)計(jì)算機(jī)來(lái)說(shuō),都不夠給他它預(yù)熱的,瞬間就能出來(lái)結(jié)果。結(jié)果出來(lái)后,每個(gè)數(shù)據(jù)點(diǎn)都有了四個(gè)質(zhì)心的距離數(shù)據(jù),然后這些數(shù)據(jù)點(diǎn)會(huì)選擇距離自己最近的那個(gè)質(zhì)心作為自己的質(zhì)心,這樣就有了最原始的四個(gè)組,專業(yè)術(shù)語(yǔ)里也叫做簇!到這一步模型還沒(méi)有結(jié)束,因?yàn)槲覀冋业倪@些中心不一定在剛剛聚成的簇的真正中心位置,這時(shí)候就需要再計(jì)算一下每個(gè)簇真正的質(zhì)心在哪里了,算出來(lái)之后,四個(gè)初始的質(zhì)心就轉(zhuǎn)移到了剛剛計(jì)算出來(lái)的質(zhì)心位置,看到這里有沒(méi)有一點(diǎn)熟悉的感覺(jué),是的,下一步又要計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到新質(zhì)心的距離了,然后再重新聚類(lèi),再計(jì)算更新的質(zhì)心,這樣迭代下去,直到找到最優(yōu)質(zhì)心,聚類(lèi)出最優(yōu)的簇!
這樣解釋這個(gè)原理,有點(diǎn)抽象,舉例子解釋一下,比如說(shuō)我的數(shù)據(jù)里包含了100個(gè)妹子,既然我要聚成四類(lèi),就隨機(jī)在100個(gè)妹子中挑選了四個(gè)人作為質(zhì)心,然后開(kāi)始計(jì)算剩下的96個(gè)妹子中每個(gè)妹子與那四個(gè)質(zhì)心妹子的相似性,就是前邊原理里提到的距離,96個(gè)妹子每個(gè)妹子都被計(jì)算了和四個(gè)質(zhì)心妹子的距離,然后每個(gè)妹子和哪個(gè)質(zhì)心妹子更相似,就把這個(gè)非質(zhì)心妹子歸到和她最相似的質(zhì)心妹子那一簇里,最初始的四個(gè)簇就分出來(lái)了,這時(shí)候新的問(wèn)題出現(xiàn)了,發(fā)現(xiàn)最初確定的質(zhì)心妹子并不是這一簇里最有代表性的妹子,其他妹子的特征更能代表這一整個(gè)簇,通過(guò)計(jì)算,更能代表這一簇的妹子成了新一輪的質(zhì)心,質(zhì)心變動(dòng)了,每個(gè)非質(zhì)心妹子與新質(zhì)心妹子的相似度就需要重新計(jì)算,計(jì)算出四個(gè)新質(zhì)心后,開(kāi)始計(jì)算這一輪剩下的96個(gè)妹子與新質(zhì)心妹子的相似度,然后重新聚類(lèi),進(jìn)入新一輪迭代!這樣一個(gè)只有100條記錄的數(shù)據(jù)集,一直迭代到質(zhì)心不再發(fā)生變化不需要很長(zhǎng)的時(shí)間,如果數(shù)據(jù)集很大的話,要迭代到質(zhì)心不再發(fā)生變化,可能需要特別長(zhǎng)的時(shí)間,這時(shí)候就需要算法的參數(shù)出場(chǎng)來(lái)進(jìn)行控制。
不管怎么說(shuō),我成功的把妹子們分成了四類(lèi),有一類(lèi)妹子是我理想的類(lèi)型,然而網(wǎng)站給出的匹配度有高有低,那么應(yīng)該是我的信息不符合一些妹子的要求?,F(xiàn)在是到哪一步了?開(kāi)始給妹子發(fā)消息嘛?當(dāng)然不是!人靠衣裝馬靠鞍,沒(méi)見(jiàn)面之前得在依據(jù)事實(shí)的前提下包裝一下自己,讓自己的個(gè)人信息和妹子的要求相近那么一點(diǎn)點(diǎn),要注意的是造假是不行的,那是欺騙,我這樣的社會(huì)主義好青年是不會(huì)做這樣的事情的。盡量滿足妹子的要求,實(shí)在滿足不了的也不能硬說(shuō)自己滿足啊。
第四步 進(jìn)入溝通
Ok,個(gè)人信息美化好之后,就可以給妹子們發(fā)信息啦,我是很希望有很多妹子能給我回復(fù),然而,理想是豐滿的,現(xiàn)實(shí)是骨感的,雖然提前做了工作,回復(fù)我的妹子也沒(méi)有那么多,中間偶爾還有托的消息,可見(jiàn)我前邊數(shù)據(jù)清洗的時(shí)候并沒(méi)有能成功的清理出去所有的虛假信息。這種信息只能是由我人肉篩選了,還好這類(lèi)信息不多。
終于,我發(fā)出的消息有了回音,新的問(wèn)題又出現(xiàn)了,作為一個(gè)只有工作沒(méi)有生活的技術(shù)宅,我不知道能跟妹子聊點(diǎn)啥,尷尬!幸好不是面對(duì)面的聊,所以妹子那邊拋出一個(gè)話題,比如說(shuō)什么微博熱搜知乎熱搜頭條抖音之類(lèi)的,我都要一邊去找這些熱搜一邊和妹子聊天,感覺(jué)有點(diǎn)心累!然而,能難倒數(shù)據(jù)分析師的問(wèn)題還真的不多,我直接寫(xiě)了幾個(gè)爬蟲(chóng),每天爬一遍各大熱搜,和妹子聊天之前做好功課,至少不被動(dòng),有話題可以和妹子聊,感覺(jué)好了很多。
當(dāng)然并不是所有妹子都聊熱搜,還有一些妹子聊人生聊工作聊價(jià)值觀,總之,這段時(shí)間是我本職工作之外各種知識(shí)急速擴(kuò)展的階段,感覺(jué)自己又到了高考前的人生知識(shí)巔峰階段,上知天文下知地理中間還知各種政治新聞娛樂(lè)八卦,如果不做數(shù)據(jù)分析師,去做專業(yè)陪聊都毫無(wú)壓力,不管對(duì)方想聊啥,瞬間調(diào)出資料接住對(duì)方拋過(guò)來(lái)的梗。即使如此,也不是所有給我回復(fù)的妹子都能一直聊下去,有些價(jià)值觀是非觀之類(lèi)的問(wèn)題,還是要堅(jiān)持自我的,聊不來(lái)也沒(méi)辦法,強(qiáng)行迎合別人最后也很難有盡如人意的結(jié)果。
折騰了這么久,終于到了離開(kāi)計(jì)算機(jī)去見(jiàn)面約會(huì)的階段了,已經(jīng)記不起來(lái)自己有多久沒(méi)有約會(huì)過(guò)的人,心情既興奮又緊張,還有一點(diǎn)點(diǎn)的缺乏信心(好吧,我承認(rèn),其實(shí)心里老沒(méi)底了,方的不行)。不過(guò),還是那句話,沒(méi)有什么是我不能分析的,這不過(guò)是從對(duì)群體的分析轉(zhuǎn)到了對(duì)個(gè)體分析的階段,沒(méi)什么特殊嘛!給自己打氣完畢,開(kāi)始約會(huì)前的準(zhǔn)備工作:根據(jù)線上聊天時(shí)妹子表現(xiàn)出的喜好,選一個(gè)她一直想去又因?yàn)楦鞣N原因而沒(méi)有去成的餐廳,帶上一個(gè)她可能會(huì)喜歡但是又不是很貴重的小禮物;準(zhǔn)備一些她可能會(huì)感興趣的話題,避免到時(shí)候因?yàn)榫o張不知道說(shuō)點(diǎn)什么,尬聊太消耗感情了!然后還有就是我自己要好好收拾一下,去找村頭的Tony老師理一個(gè)精神的發(fā)型,準(zhǔn)備一套清爽整潔不做作的衣服。提前幾分鐘到約定好的餐廳坐等!
我準(zhǔn)備了這么多,整個(gè)過(guò)程也還算順利沒(méi)有什么尷尬的事情發(fā)生,不過(guò)可能我的真人版和妹子的真人版都有點(diǎn)不太符合雙方的預(yù)期,約會(huì)后聯(lián)系也就終止了!但是一次的失敗對(duì)我來(lái)說(shuō)不算什么,想想我工作中算法模型跑不成功,調(diào)參調(diào)到懷疑人生的時(shí)候都沒(méi)有輕言放棄,這么一點(diǎn)點(diǎn)挫折算什么,繼續(xù)開(kāi)始下一個(gè),繼續(xù)迭代!
每次迭代都能學(xué)習(xí)到經(jīng)驗(yàn)教訓(xùn),經(jīng)過(guò)一遍一遍的約會(huì)然后回去復(fù)盤(pán),終于我找到了一個(gè)可以確定關(guān)系的妹子,和家里打電話的時(shí)候得到了母上大人的肯定,我心甚慰?。《?,妹子和我是同行,都是數(shù)據(jù)分析師,只不過(guò)行業(yè)不一樣。后來(lái)關(guān)系穩(wěn)定后的一次閑聊,我才知道,女朋友也是因?yàn)楹臀翌?lèi)似的原因,用數(shù)據(jù)分析的方法去分析各種交友類(lèi)網(wǎng)站的數(shù)據(jù),跑個(gè)算法來(lái)找目標(biāo),好吧,原來(lái)我也是別人數(shù)據(jù)集中的一個(gè)樣本來(lái)著!幸運(yùn)的是,我們正好在彼此的數(shù)據(jù)集中,經(jīng)過(guò)層層篩選,成為了對(duì)方那個(gè)對(duì)的人!從此以后,家不再只是租來(lái)的一間空屋子,有燈光,有溫暖,有個(gè)我喜歡的人和我一起討論數(shù)據(jù)分析討論各種算法模型!
(完結(jié) 本故事純屬虛構(gòu),如有雷同,純屬巧合)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10