
本文由公眾號 AIU人工智能(ID:ai_cda)出品,轉(zhuǎn)載需授權(quán)
故事背景
Hello,大家好,我是一個在帝都漂了好幾年的北漂,剛開始的時候還好,隨著年紀的增長每次給家里打電話或者回家都像是經(jīng)歷一次渡劫,當然每每渡劫都不成功,被父上母上大人聯(lián)手劈的外焦里嫩。如果有和我差不多年紀的單身哥們兒大概會懂這種感受.過程是這樣的,最開始的催找女朋友---中期即使沒有女朋友也要直接催婚—后期的連女朋友都沒有就直接催生,我也是招架不住.
哦,忘了交代,至于我為什么還沒有女朋友,是不是我氣質(zhì)猥瑣又不上進?必須不是啊,想當年我也是社會主義接班人來著,絕對是五官和思想一樣端正,作為一名數(shù)據(jù)分析師,兢兢業(yè)業(yè),為公司創(chuàng)造多大價值這種涉及商業(yè)機密的事兒就不多說了,所以我沒女朋友真的單純的是因為一沒時間去找,二是圈子太小,平時公司的團建看著出席的一雙雙一對對的,不知各位有沒有體驗過冷冷的狗糧胡亂的往嘴里塞是什么感受,其實也還好,公司男多女少,單身汪們平攤一下火力,還能剩下點肚子吃點團建餐。
然而,作為一個正常的男人,還是需要妹子的啊!可是,身為公司棟梁,平時的工作,我要說忙成狗吧,狗都不樂意,畢竟我家的狗子平時除了拆家來活動活動筋骨之外就沒啥可忙的!所以,我也沒時間去各種活動認識妹子,當我再次把這樣的理由報告給電話另一端的母上大人時,母上大人怒了:”沒時間參加什么活動,就不能從網(wǎng)上找一個嘛?虧你還天天炫耀沒有什么是你不能分析的,你怎么就不分析分析怎么找個女朋友?!“ 哇塞!母上大人英明啊!以前覺得網(wǎng)上各種交友網(wǎng)站不太靠譜,魚龍混雜,我去粗取精一下不就好了嘛,在我眼里,一切皆數(shù)據(jù)啊,數(shù)據(jù)提取出來分析分析找出靠譜的數(shù)據(jù)就好了嘛!
“脫單”大計正式開始執(zhí)行
OK,說干就干,既然是要通過數(shù)據(jù)分析來找一個女朋友,當然是要走個完整流程,第一步,確立目標!我的目標是要結(jié)交一個以結(jié)婚為目的的女朋友!不要小瞧這個目標,里邊包含的學問可不少,首先,要進行數(shù)據(jù)分析,目標一定要明確!目標猶如燈塔,唯一且明亮,這樣才能指引小船不偏離航道。當然很多時候目標都是階段性的,在一個大的項目里邊,會有一個大的總目標,而總目標又通常會被拆解成若干個小目標,一一攻破。 就像現(xiàn)在我的目標,要結(jié)交一個以結(jié)婚為目的的女朋友,就可以拆解成幾個小目標,首先要先獲取到妹子的信息,其次再進行梳理篩選自己中意的,再次要去了解妹子,知己知彼,而后要創(chuàng)造和妹子接觸的機會,最后發(fā)展成我的女朋友,當然后邊還有終極目標,就是成功娶回家嘍??瓤?,目標定的還不夠遠大,畢竟以后我們孩子要叫什么名字上哪所幼兒園之類的我還沒開始想……
好了,目標已經(jīng)確立好,接下來第二步,獲取數(shù)據(jù)!enmmm,數(shù)據(jù)從哪里獲取比較好呢,有那么多相親網(wǎng)站交友軟件,作為數(shù)據(jù)分析師,任何決定可都不是拍腦袋決定的,選擇數(shù)據(jù)源也一樣,而且數(shù)據(jù)源的質(zhì)量直接影響后期我能找到合適妹子的概率,或者說影響我能找到合適妹子的效率,所以,數(shù)據(jù)源的數(shù)據(jù)質(zhì)量不容忽視。在工作中,大多數(shù)時候我的數(shù)據(jù)源來自公司數(shù)據(jù)庫和網(wǎng)頁公開數(shù)據(jù),現(xiàn)在我的數(shù)據(jù)源就僅限于網(wǎng)頁公開數(shù)據(jù)了。至于我的數(shù)據(jù)源是怎么選擇的呢,特別的簡單,直接爬了幾個相親網(wǎng)站的數(shù)據(jù),雖然據(jù)說有一些信息不真實,好在基數(shù)夠大,況且我只找一個女朋友,多了,咱也不敢要啊,不,是多了我也不會要的,我可是思想端正的社會主義好青年!思想工作結(jié)束,繼續(xù)我的數(shù)據(jù)分析工作!去寫爬蟲!
爬不同的網(wǎng)站,寫一套爬蟲是不夠的,而且網(wǎng)站數(shù)據(jù)更新,爬取同一個網(wǎng)站的爬蟲也要有改變。不過主要語法框架是差不多的,修改起來并不難,而且Python這種語言,開發(fā)效率相當高,重寫一套爬蟲對于我這種經(jīng)常需要爬網(wǎng)站的數(shù)據(jù)分析師來說,根本就不叫事兒嘛!所以,最開始幾天的下班后,我一直在爬啊爬,爬啊爬,爬啊爬…….盡量多爬幾個網(wǎng)站數(shù)據(jù),廣撒網(wǎng),盡量把最有可能的那個她網(wǎng)羅進我的數(shù)據(jù)庫中!當然我爬取的都是公開的數(shù)據(jù),比如昵稱、編號、地區(qū)、昵稱、愛好、對另一半要求以及網(wǎng)站給出的匹配度等等。至于我爬了哪些網(wǎng)站的公開信息嘛,保密啊,畢竟這些網(wǎng)站大佬們又不會給我打廣告費,哈哈哈!
終于,搞定了數(shù)據(jù)源之后,我到了第三步,數(shù)據(jù)清洗!這一步是我比較不愿意面對的一步了,為什么呢,因為工作量實在是有點大,根據(jù)我多年的從業(yè)經(jīng)驗,數(shù)據(jù)清洗在數(shù)據(jù)分析的整個流程中大概占到了60%--80%的工作量。類似于做菜前的摘菜、洗菜、切菜等等工作,貌似飯店的配菜工。想想有這么一個配菜工,一大堆的菜要摘,不符合要求的菜葉子要都剔除出去,不能有遺漏,萬一客人在盤子里發(fā)現(xiàn)了一片顏色不對的爛葉子,這是會影響飯店形象和收益的。OK,好不容易經(jīng)過萬分仔細的摘菜之后,開始洗菜了,保證每片菜葉子都洗干凈,一點沙粒都不能留,要不硌著客人的牙了咋辦?終于摘菜洗菜后,到了切菜的環(huán)節(jié),考驗刀工的時候到了,一定要切的粗細均勻,賣相太差會顯得我們做菜很不專業(yè)!
現(xiàn)在大家都能明白的配菜過程,映射到數(shù)據(jù)清洗過程是這樣子的:首先,查看數(shù)據(jù)的全貌,做一個簡單判斷,比如我需要的數(shù)據(jù)是有時間要求的,如果一個妹子半年都沒登錄過相親網(wǎng)站,即使她的各項條件都特別的吸引我,也沒啥用啊,人家可能是找到如意郎君了,可能是受了情傷再也不相信愛情了,可能是沉迷于工作無法自拔了……不管什么原因吧,人家妹子都不來這個網(wǎng)站了,我也聯(lián)系不到她?。∷晕业臄?shù)據(jù)是按照妹子們最近一次登錄的時間來排列的,只要最近登錄時間為兩周之內(nèi)的,前邊說過,作為一個數(shù)據(jù)分析師,任何決定都不是拍腦袋決定,然而,凡事有例外,如果這是公司項目,我會去爬取更多的數(shù)據(jù),然后算一下,大概多久不登錄的賬戶,在后期的日子里會再也不登錄了,但是這是我自己的事兒,加上我時間有限(好吧,其實我還有一點想偷懶),所以就沒有去爬取更多的數(shù)據(jù)做這項分析,只是抽樣了一些數(shù)據(jù)簡單看了下,大概把時間節(jié)點定在了兩周。當然不是說登錄時間兩周前的就完全沒希望,這只是一個概率的問題而已。
到了這一步,開始我真正的摘菜洗菜切菜的工作,不不不,是真正的數(shù)據(jù)清洗工作。首先,信息填寫不全的,關(guān)鍵信息有缺失的那種,就可以直接刪除了,比如我都不知道對方妹子多大,在不在我的擇偶范圍之內(nèi)的這種,就只能刪掉了,否則萬一經(jīng)過我的各種分析出來一個我特別中意的妹子,聯(lián)系后發(fā)現(xiàn)人家不是比我大太多就是小太多,這就尷尬了對不對,所以工作要做在前邊,盡量考慮到各種可能發(fā)生的情況,要不然事情做到一半或者即將結(jié)束的時候發(fā)現(xiàn)問題要推倒重來實在是令人崩潰。所以,第一步來處理缺失值問題,有些缺失值不太影響最后結(jié)果的,比如昵稱這種,在一定程度上可以反映對方的性格或者偏好,但是對最終的結(jié)果不會影響太大,就不用因為它的缺失而刪除整條記錄了,但是放任不管,后期數(shù)據(jù)扔進模型的時候又會受到影響,就可以考慮填充一下啦。至于用什么填充,可以考慮用編號填充,這樣填充的記錄不會有重復(fù)。
處理完缺失值后該處理重復(fù)值了,重復(fù)的記錄對分析的結(jié)果還是很有影響的,想象一下,經(jīng)過各種分析,最后我終于挑出來三五個妹子覺得可以溝通互相了解一下,結(jié)果發(fā)現(xiàn)其中三條記錄信息都是同一個妹子的,會不會覺得自己損失了一大片森林?重復(fù)記錄的處理就沒什么其他選擇了,果斷刪除,行動要快,動作要帥,裝X完畢!最后是離群值的處理,怎樣的數(shù)據(jù)算離群值呢,比如說我可以對年齡數(shù)據(jù)畫一個箱線圖,設(shè)置參數(shù),使年齡大于多少的和小于多少的成為離群值,至于這個多少是哪個數(shù)字嘛就不方便透露了,畢竟這只是我的個人傾向,并且處在這兩個年齡階段的妹子也不是不好,就像上邊篩選登陸時間的理念是一樣的,只是概率問題,我與異性接觸的有限經(jīng)驗顯示這兩個年齡段的妹子和我能聊到一起的概率不太大而已。然后,在箱線圖上下限之間的記錄就會被留下來了。
到這里,數(shù)據(jù)清洗的工作好像就已經(jīng)完成了,留下的數(shù)據(jù)是完整干凈符合要求的數(shù)據(jù)了。事實真是如此么,如果這么簡單粗暴,我還怎么好意思宣稱自己是公司的棟梁,是能夠為社會主義建設(shè)貢獻力量的好青年呢?事情當然不會這么簡單,畢竟這中間隱藏著很多虛假信息啊,據(jù)說有各種托,作為一個平時勤儉節(jié)約一心在攢老婆本兒的五好青年,必須不能落入托的圈套去各種花錢買買買,所以要在數(shù)據(jù)進入模型前把這些虛假信息篩選剔除出去。就像是每個公司的業(yè)務(wù)不同,沒有哪套制式的流程能夠適應(yīng)所有公司,都是需要基于具體業(yè)務(wù)的。
單純的從數(shù)據(jù)層面上來說,前邊的流程的確也算是完成了清洗,但是從業(yè)務(wù)層面來說還遠遠不夠,這也是數(shù)據(jù)清洗工作量比較大的原因之一,需要根據(jù)具體業(yè)務(wù)調(diào)整清洗的標準呢。所以接下來就是要剔除虛假信息。要剔除虛假信息,首先需要對虛假信息進行判定,具體的標準就不透露,我保證不了這套標準能夠百分百的剔除虛假信息還不誤刪正常信息,所以呢,對于我自己這個“脫單”項目的數(shù)據(jù)清洗工作就算是完成啦。
(未完待續(xù),本故事純屬虛構(gòu),如有雷同,純屬巧合)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03