
數(shù)據(jù)分析1382份簡歷:就業(yè)性別歧視真的存在嗎?
在求職時(shí),性別真的有影響嗎?不同行業(yè)、不同職業(yè)類別的人對此或許有不同看法。這樣的看法是如何產(chǎn)生的?有沒有一種科學(xué)的方法來衡量呢?美國舊金山的一位數(shù)據(jù)科學(xué)家Prasanna Parasurama通過對1382份簡歷的分析得出了結(jié)論:性別不平等往往和求職者的個(gè)人客觀條件無關(guān),而更多來自公司主管不可控的主觀因素。
用大數(shù)據(jù)的方法來衡量職場的性別不平等
在科技業(yè),求職時(shí)的性別不平等一直是個(gè)重要話題。但針對該議題,在實(shí)際操作層面卻鮮有基于大數(shù)據(jù)的系統(tǒng)性研究。
對于那些擁有大量數(shù)據(jù)的企業(yè)來說,缺乏一個(gè)嚴(yán)格而科學(xué)的系統(tǒng)很容易導(dǎo)致人力資源部門僅僅根據(jù)道聽途說來推測性別不平等問題產(chǎn)生的原因,而忽略了真正的根源。
為了這個(gè)目的,本文提出了一種可重復(fù)地用來評價(jià)求職性別不平等的系統(tǒng)研究方法,并且附帶使用這種方法進(jìn)行評價(jià)的案例。
樣本和研究方法:基于1382份簡歷的數(shù)據(jù)分析
這次研究中用到的是一個(gè)數(shù)據(jù)工程師職位的1382名求職者的簡歷數(shù)據(jù),其中1029人為男性,占74.4%,353為女性,占25.5%。
需要指出的是,因?yàn)椴恢肋@些求職者的性別(注:在美國等一些國家,為了避免各種偏見,簡歷一般不附帶求職者個(gè)人照片和性別信息等),因此上述性別人數(shù)和比例是基于求職者的姓名和Atipica公司(注:即本文作者所在的公司)的性別預(yù)測模型得到的,總的準(zhǔn)確率可以達(dá)到96%,但會(huì)產(chǎn)生4%的誤差。在后續(xù)的分析中,這一誤差也可能會(huì)有所影響。
而求職者的職業(yè)技能也由Atipica公司的技能映射模型獲得。
首先,我們需要明確的是,如何通過指標(biāo)來衡量性別不平等?
通過比較特定職位的男女求職者的被拒比例,我們可以確定是否存在潛在的性別不平等,因?yàn)樵谄渌麠l件相同的情況下,理論上被拒比例應(yīng)該是接近的。
(圖片說明:被拒比例=被拒的申請者人數(shù)/總申請人數(shù))
在這項(xiàng)研究中,我們通過比較在審查求職申請階段的被拒率來衡量不平等。選取這個(gè)階段的原因主要有以下兩個(gè):
+ 在審查求職申請的階段,雇主會(huì)有多重方式來評價(jià)一個(gè)求職者,例如,電話溝通技巧等,而不是單一通過簡歷來評價(jià)。為了減少不可控因素,我們把數(shù)據(jù)的收集固定在這個(gè)階段。
+ 審查求職申請通常對于之后的進(jìn)一步考察影響最大。我們發(fā)現(xiàn)約90%的求職者在這個(gè)階段會(huì)被拒。
那么在審查求職申請階段產(chǎn)生的被拒率的差異都可以被歸結(jié)為:
+ 客觀因素:工作經(jīng)驗(yàn)、教育背景和技能體系。
+ 主觀因素:被認(rèn)為教育背景不符合、被認(rèn)為工作經(jīng)驗(yàn)不符合、故意或者非故意的偏見。
由于主觀因素的本質(zhì),它本身是不可控的,所以我們把研究對象限定在客觀因素。
我們基于以下假設(shè)對統(tǒng)計(jì)數(shù)據(jù)的顯著性做了測試:
在測量顯著性過程中,我們必須要考慮到兩類誤差。一是樣本誤差,二是性別預(yù)測的誤差(4%)??紤]到性別預(yù)測誤差,我們放棄了T檢驗(yàn)(注:即t-test,是用t分布理論來推論差異發(fā)生的概率,從而比較兩個(gè)平均數(shù)的差異是否顯著)。這類傳統(tǒng)參數(shù)測試,而改用了置換測試并且配合蒙特卡洛方法,在每次重復(fù)測試中都在男性和女性中做了4%的樣本交換,并且驗(yàn)證了重復(fù)性假設(shè)。
數(shù)據(jù)分析:男性和女性技能相差不大,但女性被拒率更高
被拒率的差異:
(圖片說明:男女求職者的被拒比例)
男性和女性的被拒率分別為83.0%和88.6%,女性比男性高出5.6個(gè)百分點(diǎn),這個(gè)偏差在統(tǒng)計(jì)上表現(xiàn)出顯著性(p=0.03)。緊接著作者評估了各項(xiàng)客觀因素在偏差顯著性上起的作用。
技能總數(shù)量上的差異:
(圖片說明:男女求職者職業(yè)技能數(shù)量的分布)
女性求職者簡歷上平均羅列96項(xiàng)技能,男性求職者簡歷上平均羅列93項(xiàng)技能。根據(jù)上圖所顯示出來的情況,技能數(shù)量的平均數(shù)和中位數(shù)相差不大。
可以發(fā)現(xiàn),盡管在技能平均數(shù)量上存在差異,但這種差異一方面小到不存在實(shí)際影響,另一方面在統(tǒng)計(jì)顯著性上也不顯著(p=0.38)。
技能體系上的差異:
(圖片說明:職業(yè)相關(guān)技能的分布)
為了查明技能體系上的差異,我們根據(jù)技能映射模型找出了34項(xiàng)核心技能,并把我們從簡歷里挖掘出來的技能進(jìn)行比較。上圖顯示了一些技能在簡歷中呈現(xiàn)的比例,例如,不論男女,約80%的求職者都在簡歷中提到Java。
通過定性分析,我們可以看出技能分布在男女求職者上區(qū)別不大。
定量分析男女求職者在技能集合上的相似性,我們可以看出分布的標(biāo)準(zhǔn)差。
我們用 A?和B?分別表示掌握技能i的男女求職者比例,例如,A_java = 0.8并且B_java = 0.8。則n種技能的總平均偏差比例為:
這就意味著,平均來看,對于每一項(xiàng)技能,男性掌握該技能的比例都要高于女性掌握該技能的比例2.2個(gè)百分點(diǎn),偏差并不大。
偏差的百分?jǐn)?shù)看上去直觀,但缺點(diǎn)是我們并不知道相對偏差。我們進(jìn)一步利用平均數(shù)標(biāo)準(zhǔn)化偏差計(jì)算相對偏差:
在標(biāo)準(zhǔn)化之后,技能集合上男女求職者的偏差為5.3% —— 換句話說技能集合上94.7%都是一樣的。
5.3%的偏差雖然小,但也可能影響巨大,尤其是如果這種差異體現(xiàn)在核心技能上時(shí)。
為了搞清楚這個(gè)問題,我們運(yùn)用置換測試/蒙特卡洛法計(jì)算了男女求職者在特定技能掌握比例上的偏差。比如,如果50%男性和53%女性都會(huì)“hadoop”,我們就要計(jì)算這3%的差異是不是顯著。
結(jié)果發(fā)現(xiàn),在剩余的33項(xiàng)技能中,只有SQL和統(tǒng)計(jì)兩項(xiàng)技能顯示出性別差異性,而且這兩項(xiàng)都是女性的掌握程度高于男性。
大體上,我們可以說在技能的大多數(shù)方面男女之間不存在差異,而SQL和統(tǒng)計(jì)上又是女性有顯著的優(yōu)勢。
工作經(jīng)驗(yàn)上的差異:
下表列出了男女求職者工作年限的平均數(shù)和中位數(shù),值得注意的是職位要求并不包含工作年限。
我們發(fā)現(xiàn)工作年限上只有半年的差異,盡管在差異上表現(xiàn)出顯著性,但在實(shí)際錄用的層面上并沒有什么實(shí)際意義,很少有公司會(huì)把半年經(jīng)驗(yàn)的缺失作為拒絕的主要因素。
教育背景上的差異:
下表列出了求職者最高學(xué)歷的分布情況(百分比),職位的要求是理工科本科或者碩士畢業(yè)生。
女性求職者比男性求職者在高學(xué)歷中所占比例更高,82.7%的女性求職者擁有碩士及以上學(xué)歷,只有69.9%的男性求職者擁有同等學(xué)歷。這方面的差異非常顯著。
結(jié) 論
從上面的研究可以發(fā)現(xiàn),女性求職者在被拒率上高出男性求職者5.6個(gè)百分點(diǎn),盡管女性擁有高學(xué)歷的比例更高、工作年限上和技能體系上也沒有實(shí)際意義上的差異。
當(dāng)然,如果僅僅根據(jù)上面的實(shí)驗(yàn)結(jié)果就得出“被拒率上的差異是因?yàn)橛幸饣蛘邿o意的偏見”的結(jié)論,還缺乏充分的理由。但考慮到在實(shí)驗(yàn)中至少已經(jīng)排除一些客觀因素的影響,那么有理由相信這種差異更有可能是來自于主觀因素的影響。
研究的局限性
當(dāng)然,需要指出的是,本次實(shí)驗(yàn)還具有一些局限性:
1. 經(jīng)驗(yàn)和教育背景的含金量
盡管工作經(jīng)驗(yàn)和教育背景是簡歷審查的一個(gè)基準(zhǔn)線,但其中的含金量卻是極其關(guān)鍵的因素,甚至影響到能否通過簡歷審查。然而,這方面又太觀并且難以控制。
2. 技能不是紙上談兵
我們僅僅根據(jù)技能一欄填寫的情況來考慮,那么會(huì)造成一個(gè)熟練掌握該技能并有5年經(jīng)驗(yàn)的求職者和一個(gè)剛會(huì)一點(diǎn)的菜鳥求職者沒什么區(qū)別的情況。
3. 所有相關(guān)技能所占權(quán)重都一樣
全部34項(xiàng)技能權(quán)重都一樣,這在簡歷審查時(shí)肯定不現(xiàn)實(shí),很明顯一些職位對于一些核心技能的要求要高過其他技能,也就是權(quán)重更重。然而,這方面我們可以通過招聘官給出每項(xiàng)技能的權(quán)重來解決。
4. 之前做過的項(xiàng)目沒有被考慮進(jìn)去
求職者之前做過的項(xiàng)目或者寫過的代碼(比如github等)有時(shí)在簡歷審查時(shí)是會(huì)被調(diào)閱的,而這一點(diǎn)在本次實(shí)驗(yàn)中沒有被考慮。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03