
數(shù)據(jù)分析行業(yè)薪資的秘密,你想知道的都在這里(二)
接上篇:數(shù)據(jù)分析行業(yè)薪資的秘密,你想知道的都在這里(1)
第二部分:職位信息清洗及數(shù)據(jù)提取
數(shù)據(jù)分析師的收入怎么樣?哪些因素對于數(shù)據(jù)分析的薪資影響最大?哪些行業(yè)對數(shù)據(jù)分析人才的需求量最高?我想跳槽,應(yīng)該選擇大公司大平臺還是初創(chuàng)的小公司?按我目前的教育程度,工作經(jīng)驗,和掌握的工具和技能,能獲得什么樣水平的薪資呢?
我們使用python抓取了2017年6月26日拉鉤網(wǎng)站內(nèi)搜索“數(shù)據(jù)分析”關(guān)鍵詞下的450條職位信息。通過對這些職位信息的分析和建模來給你答案。
本系列文章共分為五個部分,分別是數(shù)據(jù)分析職位信息抓取,數(shù)據(jù)清洗及預(yù)處理,數(shù)據(jù)分析職位分布分析,數(shù)據(jù)分析薪資影響因素分析,以及數(shù)據(jù)建模和薪資預(yù)測。這是第二篇:職位信息清洗及數(shù)據(jù)提取。
第二篇文章是對獲取的數(shù)據(jù)進(jìn)行清洗,預(yù)處理和特征提取。在第一篇文章中我們抓取了拉勾網(wǎng)的450條職位信息及職位描述。但這些信息無法直接用于數(shù)據(jù)分析,我們需要對抓取到的信息進(jìn)行清洗,規(guī)范現(xiàn)有數(shù)據(jù)的格式,提取信息中的數(shù)據(jù)及特征,為后續(xù)的數(shù)據(jù)分析和建模做準(zhǔn)備。下面開始介紹苦逼的
數(shù)據(jù)清洗流程介紹。
數(shù)據(jù)清洗前的準(zhǔn)備工作
首先是開始前的準(zhǔn)備工作,導(dǎo)入所需要的庫文件,包括常用的numpy和pandas庫用于計算平均薪資以及對字符進(jìn)行分列等操作,正則表達(dá)式re庫用于字符的查找和替換操作,結(jié)巴分詞庫jieba用于對職位描述進(jìn)行分詞操作,自然語言處理nltk庫用于計算職位描述的文字豐富度指標(biāo),還有KMeans用于對平均
薪資進(jìn)行聚類操作。
導(dǎo)入我們之前抓取并保存的數(shù)據(jù)表,并查看數(shù)據(jù)表的維度以及各字段名稱。后面我們會經(jīng)常使用這些字段名稱。
職位信息清洗及預(yù)處理
開始對職位信息的各個字段進(jìn)行清洗和預(yù)處理,主要清洗的內(nèi)容包括文本信息提取和處理,內(nèi)容搜索和替換,字段內(nèi)的空格處理,數(shù)值信息提取和計算,英文字母統(tǒng)一大小寫等等。我們將先展示清洗前的原始字段,然后在展示清洗后的新字段內(nèi)容。
行業(yè)字段清洗及處理
第一個清洗的字段是行業(yè)字段,抓取到的行業(yè)字段比較混亂,有些只有一個行業(yè)名稱,有些則有兩級的行業(yè)名稱。我們保留行業(yè)字段第一部分的信息,對有兩部分行業(yè)名稱的字段取前一個。
由于行業(yè)名稱之間有的以頓號分割,有的以逗號分割,我們先將所有的分隔符統(tǒng)一為逗號,然后對這個字段進(jìn)行分列。并將分列后的字段重新拼接回原數(shù)據(jù)表中。
以下是清洗后的行業(yè)字段。
融資階段字段清洗及處理
第二個清洗的字段是融資階段字段,抓取下來的原始信息中對融資階段進(jìn)行了雙重標(biāo)識,例如成長型(A輪)。由于第一個標(biāo)識”成長型”定義比較寬泛,我們提取第二個括號中的標(biāo)識。
首先建立一個字典,將數(shù)據(jù)表中融資階段的每一條信息與字典中的Key進(jìn)行查找。如果融資階段信息中包含字典中的任何一個key,我們就把這個key對應(yīng)的value記錄下來。
職位名稱字段清洗及處理
第三個清洗的字段是職位名稱,這里我們要提取職位里的title信息。沒有title信息的都統(tǒng)一歸為其他。具體方法是將每個職位名稱與現(xiàn)有的title列表逐一判斷,如果職位名稱中含有title關(guān)鍵字就被劃分到這個類別下。否則被歸為其他類。
薪資范圍字段清洗及處理
第四個清洗的字段是薪資范圍。抓取到的數(shù)據(jù)中薪資范圍是一個區(qū)間值,比較分散,無法直接使用。我們對薪資范圍進(jìn)行清洗,去掉無關(guān)的信息并只保留薪資上限和下限兩個數(shù)字,然后使用這兩個數(shù)字計算出平均薪資值。
職位信息中的數(shù)據(jù)提取
在職位描述字段中,包含了非常詳細(xì)和豐富的信息。比如數(shù)據(jù)分析人才的能力要求和對各種數(shù)據(jù)分析工具的掌握程度等。我們對這個字段的一些特征進(jìn)行指標(biāo)化,對有價值的信息進(jìn)行提取和統(tǒng)計。
職位描述字段中的數(shù)據(jù)提取
第五個清洗的字段是職位描述,準(zhǔn)確的說從職位描述字段中提取信息。職位描述中包含了大量關(guān)于職位信息,工作內(nèi)容,和個人能力方面的信息,非常有價值。但無法直接拿來使用。需要進(jìn)行信息提取。我們將對職位描述字段進(jìn)行三方面的信息提取。
第一是提取職位描述中對于個人能力的要求,換句話說就是數(shù)據(jù)分析人員使用工具的能力。我們整理了10個最常見的數(shù)據(jù)分析工具。來看下每個職位描述中都出行了哪些工具名稱。由于一些工具間存在可替代性,所以每個職位描述中可能會出現(xiàn)多個工具的名稱。沒出現(xiàn)一個工具名稱,我們就會在相應(yīng)的工具下表示1,如果沒有出現(xiàn)則標(biāo)識為0。
職位描述所使用的字?jǐn)?shù)統(tǒng)計
第二是計算職位描述所使用的字?jǐn)?shù),我們猜測初級簡單的工作描述會比較簡單,而高級復(fù)雜的工作描述則會更復(fù)雜一些。因此職位描述中不同的字?jǐn)?shù)里也可能隱藏著某種信息或關(guān)聯(lián)。
職位描述的詞匯豐富度統(tǒng)計
第三是計算職位描述中的文字豐富度指標(biāo)。和前面的字?jǐn)?shù)統(tǒng)計一樣。初級職位所對應(yīng)的工作會相對簡單,在描述上也會比較簡單。高級職位則可能需要更詳細(xì)的和負(fù)責(zé)的描述。因此文字豐富度指標(biāo)上也會更高一些。
對數(shù)據(jù)分析的薪資進(jìn)行聚類
完成清洗和數(shù)據(jù)提取后,平均薪資已經(jīng)比薪資范圍要具體的多了,但仍然比較離散。我們對這些平均薪資進(jìn)行聚類來支持后面的建模和預(yù)測工作。以下是具體的代碼和聚類結(jié)果。我們將類別標(biāo)簽添加到原始數(shù)據(jù)表中。
聚類后平均薪資被分為三個類別,第1類是薪資均值為19.3K的區(qū)間,分類標(biāo)記為0。第二類是薪資均值為8.2K的區(qū)間,分類標(biāo)記為1,。第三類是薪資均值為32.1的區(qū)間,分類標(biāo)記為3。
查看清洗及處理后的數(shù)據(jù)表
到這里我們完成了對450個職位信息的字段清洗和數(shù)據(jù)提取工作。下面我們再來查看下數(shù)據(jù)表的維度,名稱以及數(shù)據(jù)表中的數(shù)據(jù)。在下一篇文章中我們將使用這個數(shù)據(jù)表對數(shù)據(jù)分析職位的分布情況以及薪資的影響因素進(jìn)行分析,并通過建模對薪資收入進(jìn)行預(yù)測。
本篇文章我們對抓取到的職位信息進(jìn)行了清洗和數(shù)據(jù)提取。數(shù)據(jù)清洗是一個苦逼的工作,但卻是分析和建模過程中必不可少的一個步驟。經(jīng)過清洗后我們就可以對職位數(shù)據(jù)進(jìn)行分析和建模了,后面的文章中我們將從職位需求分布和薪資影響因素兩個方面進(jìn)行分析,并在最后對數(shù)據(jù)分析行業(yè)的薪資進(jìn)行建模,對薪資分類和具體的薪資值進(jìn)行預(yù)測。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10