
數(shù)據(jù)分析行業(yè)薪資的秘密,你想知道的都在這里(二)
接上篇:數(shù)據(jù)分析行業(yè)薪資的秘密,你想知道的都在這里(1)
第二部分:職位信息清洗及數(shù)據(jù)提取
數(shù)據(jù)分析師的收入怎么樣?哪些因素對(duì)于數(shù)據(jù)分析的薪資影響最大?哪些行業(yè)對(duì)數(shù)據(jù)分析人才的需求量最高?我想跳槽,應(yīng)該選擇大公司大平臺(tái)還是初創(chuàng)的小公司?按我目前的教育程度,工作經(jīng)驗(yàn),和掌握的工具和技能,能獲得什么樣水平的薪資呢?
我們使用python抓取了2017年6月26日拉鉤網(wǎng)站內(nèi)搜索“數(shù)據(jù)分析”關(guān)鍵詞下的450條職位信息。通過(guò)對(duì)這些職位信息的分析和建模來(lái)給你答案。
本系列文章共分為五個(gè)部分,分別是數(shù)據(jù)分析職位信息抓取,數(shù)據(jù)清洗及預(yù)處理,數(shù)據(jù)分析職位分布分析,數(shù)據(jù)分析薪資影響因素分析,以及數(shù)據(jù)建模和薪資預(yù)測(cè)。這是第二篇:職位信息清洗及數(shù)據(jù)提取。
第二篇文章是對(duì)獲取的數(shù)據(jù)進(jìn)行清洗,預(yù)處理和特征提取。在第一篇文章中我們抓取了拉勾網(wǎng)的450條職位信息及職位描述。但這些信息無(wú)法直接用于數(shù)據(jù)分析,我們需要對(duì)抓取到的信息進(jìn)行清洗,規(guī)范現(xiàn)有數(shù)據(jù)的格式,提取信息中的數(shù)據(jù)及特征,為后續(xù)的數(shù)據(jù)分析和建模做準(zhǔn)備。下面開(kāi)始介紹苦逼的
數(shù)據(jù)清洗流程介紹。
數(shù)據(jù)清洗前的準(zhǔn)備工作
首先是開(kāi)始前的準(zhǔn)備工作,導(dǎo)入所需要的庫(kù)文件,包括常用的numpy和pandas庫(kù)用于計(jì)算平均薪資以及對(duì)字符進(jìn)行分列等操作,正則表達(dá)式re庫(kù)用于字符的查找和替換操作,結(jié)巴分詞庫(kù)jieba用于對(duì)職位描述進(jìn)行分詞操作,自然語(yǔ)言處理nltk庫(kù)用于計(jì)算職位描述的文字豐富度指標(biāo),還有KMeans用于對(duì)平均
薪資進(jìn)行聚類操作。
導(dǎo)入我們之前抓取并保存的數(shù)據(jù)表,并查看數(shù)據(jù)表的維度以及各字段名稱。后面我們會(huì)經(jīng)常使用這些字段名稱。
職位信息清洗及預(yù)處理
開(kāi)始對(duì)職位信息的各個(gè)字段進(jìn)行清洗和預(yù)處理,主要清洗的內(nèi)容包括文本信息提取和處理,內(nèi)容搜索和替換,字段內(nèi)的空格處理,數(shù)值信息提取和計(jì)算,英文字母統(tǒng)一大小寫等等。我們將先展示清洗前的原始字段,然后在展示清洗后的新字段內(nèi)容。
行業(yè)字段清洗及處理
第一個(gè)清洗的字段是行業(yè)字段,抓取到的行業(yè)字段比較混亂,有些只有一個(gè)行業(yè)名稱,有些則有兩級(jí)的行業(yè)名稱。我們保留行業(yè)字段第一部分的信息,對(duì)有兩部分行業(yè)名稱的字段取前一個(gè)。
由于行業(yè)名稱之間有的以頓號(hào)分割,有的以逗號(hào)分割,我們先將所有的分隔符統(tǒng)一為逗號(hào),然后對(duì)這個(gè)字段進(jìn)行分列。并將分列后的字段重新拼接回原數(shù)據(jù)表中。
以下是清洗后的行業(yè)字段。
融資階段字段清洗及處理
第二個(gè)清洗的字段是融資階段字段,抓取下來(lái)的原始信息中對(duì)融資階段進(jìn)行了雙重標(biāo)識(shí),例如成長(zhǎng)型(A輪)。由于第一個(gè)標(biāo)識(shí)”成長(zhǎng)型”定義比較寬泛,我們提取第二個(gè)括號(hào)中的標(biāo)識(shí)。
首先建立一個(gè)字典,將數(shù)據(jù)表中融資階段的每一條信息與字典中的Key進(jìn)行查找。如果融資階段信息中包含字典中的任何一個(gè)key,我們就把這個(gè)key對(duì)應(yīng)的value記錄下來(lái)。
職位名稱字段清洗及處理
第三個(gè)清洗的字段是職位名稱,這里我們要提取職位里的title信息。沒(méi)有title信息的都統(tǒng)一歸為其他。具體方法是將每個(gè)職位名稱與現(xiàn)有的title列表逐一判斷,如果職位名稱中含有title關(guān)鍵字就被劃分到這個(gè)類別下。否則被歸為其他類。
薪資范圍字段清洗及處理
第四個(gè)清洗的字段是薪資范圍。抓取到的數(shù)據(jù)中薪資范圍是一個(gè)區(qū)間值,比較分散,無(wú)法直接使用。我們對(duì)薪資范圍進(jìn)行清洗,去掉無(wú)關(guān)的信息并只保留薪資上限和下限兩個(gè)數(shù)字,然后使用這兩個(gè)數(shù)字計(jì)算出平均薪資值。
職位信息中的數(shù)據(jù)提取
在職位描述字段中,包含了非常詳細(xì)和豐富的信息。比如數(shù)據(jù)分析人才的能力要求和對(duì)各種數(shù)據(jù)分析工具的掌握程度等。我們對(duì)這個(gè)字段的一些特征進(jìn)行指標(biāo)化,對(duì)有價(jià)值的信息進(jìn)行提取和統(tǒng)計(jì)。
職位描述字段中的數(shù)據(jù)提取
第五個(gè)清洗的字段是職位描述,準(zhǔn)確的說(shuō)從職位描述字段中提取信息。職位描述中包含了大量關(guān)于職位信息,工作內(nèi)容,和個(gè)人能力方面的信息,非常有價(jià)值。但無(wú)法直接拿來(lái)使用。需要進(jìn)行信息提取。我們將對(duì)職位描述字段進(jìn)行三方面的信息提取。
第一是提取職位描述中對(duì)于個(gè)人能力的要求,換句話說(shuō)就是數(shù)據(jù)分析人員使用工具的能力。我們整理了10個(gè)最常見(jiàn)的數(shù)據(jù)分析工具。來(lái)看下每個(gè)職位描述中都出行了哪些工具名稱。由于一些工具間存在可替代性,所以每個(gè)職位描述中可能會(huì)出現(xiàn)多個(gè)工具的名稱。沒(méi)出現(xiàn)一個(gè)工具名稱,我們就會(huì)在相應(yīng)的工具下表示1,如果沒(méi)有出現(xiàn)則標(biāo)識(shí)為0。
職位描述所使用的字?jǐn)?shù)統(tǒng)計(jì)
第二是計(jì)算職位描述所使用的字?jǐn)?shù),我們猜測(cè)初級(jí)簡(jiǎn)單的工作描述會(huì)比較簡(jiǎn)單,而高級(jí)復(fù)雜的工作描述則會(huì)更復(fù)雜一些。因此職位描述中不同的字?jǐn)?shù)里也可能隱藏著某種信息或關(guān)聯(lián)。
職位描述的詞匯豐富度統(tǒng)計(jì)
第三是計(jì)算職位描述中的文字豐富度指標(biāo)。和前面的字?jǐn)?shù)統(tǒng)計(jì)一樣。初級(jí)職位所對(duì)應(yīng)的工作會(huì)相對(duì)簡(jiǎn)單,在描述上也會(huì)比較簡(jiǎn)單。高級(jí)職位則可能需要更詳細(xì)的和負(fù)責(zé)的描述。因此文字豐富度指標(biāo)上也會(huì)更高一些。
對(duì)數(shù)據(jù)分析的薪資進(jìn)行聚類
完成清洗和數(shù)據(jù)提取后,平均薪資已經(jīng)比薪資范圍要具體的多了,但仍然比較離散。我們對(duì)這些平均薪資進(jìn)行聚類來(lái)支持后面的建模和預(yù)測(cè)工作。以下是具體的代碼和聚類結(jié)果。我們將類別標(biāo)簽添加到原始數(shù)據(jù)表中。
聚類后平均薪資被分為三個(gè)類別,第1類是薪資均值為19.3K的區(qū)間,分類標(biāo)記為0。第二類是薪資均值為8.2K的區(qū)間,分類標(biāo)記為1,。第三類是薪資均值為32.1的區(qū)間,分類標(biāo)記為3。
查看清洗及處理后的數(shù)據(jù)表
到這里我們完成了對(duì)450個(gè)職位信息的字段清洗和數(shù)據(jù)提取工作。下面我們?cè)賮?lái)查看下數(shù)據(jù)表的維度,名稱以及數(shù)據(jù)表中的數(shù)據(jù)。在下一篇文章中我們將使用這個(gè)數(shù)據(jù)表對(duì)數(shù)據(jù)分析職位的分布情況以及薪資的影響因素進(jìn)行分析,并通過(guò)建模對(duì)薪資收入進(jìn)行預(yù)測(cè)。
本篇文章我們對(duì)抓取到的職位信息進(jìn)行了清洗和數(shù)據(jù)提取。數(shù)據(jù)清洗是一個(gè)苦逼的工作,但卻是分析和建模過(guò)程中必不可少的一個(gè)步驟。經(jīng)過(guò)清洗后我們就可以對(duì)職位數(shù)據(jù)進(jìn)行分析和建模了,后面的文章中我們將從職位需求分布和薪資影響因素兩個(gè)方面進(jìn)行分析,并在最后對(duì)數(shù)據(jù)分析行業(yè)的薪資進(jìn)行建模,對(duì)薪資分類和具體的薪資值進(jìn)行預(yù)測(cè)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03