300部国产真实乱,最近中文字幕完整版

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

基于機(jī)器學(xué)習(xí)的高價(jià)值用戶自動發(fā)現(xiàn)

2016-06-05

基于機(jī)器學(xué)習(xí)的高價(jià)值用戶自動發(fā)現(xiàn)

自2014年起，獵聘建立全球職業(yè)發(fā)展中心(Global Career Develop Center, 簡稱GCDC)，同時(shí)服務(wù)企業(yè)和求職者，作為兩者互動的橋梁發(fā)揮著重要的作用。不同于其他互聯(lián)網(wǎng)招聘企業(yè)，獵聘重點(diǎn)關(guān)注中高端招聘需求，如中高層企業(yè)管理者、專業(yè)技術(shù)人才等。這些企業(yè)需求量相對較小，但是招聘難度大，招聘過程附加價(jià)值高。獵聘通過這種方式明確了自身的品牌定位，獲得了企業(yè)客戶的認(rèn)可和信賴。經(jīng)過幾年的發(fā)展，獵聘已經(jīng)在中高端招聘領(lǐng)域取得了領(lǐng)先的市場地位，并積極拓展其他細(xì)分市場。

對于任何互聯(lián)網(wǎng)招聘企業(yè)來說，求職者的簡歷庫都是核心資產(chǎn)。因?yàn)檫@是他們變現(xiàn)的基礎(chǔ)。只有擁有足夠多的簡歷，讓企業(yè)可以在該網(wǎng)站上獲取需要的人才，才能持續(xù)從企業(yè)客戶獲得訂單。對于獵聘來說，與其他互聯(lián)網(wǎng)招聘企業(yè)又有一定的不同。這是因?yàn)楂C聘定位中高端招聘需求，要求獵聘向企業(yè)客戶提供的簡歷是具有一定質(zhì)量的白領(lǐng)、高級白領(lǐng)、乃至金領(lǐng)的簡歷。出售這樣的簡歷資源，也是獵聘變現(xiàn)的主要來源。在定價(jià)上，企業(yè)需要付較高的費(fèi)用來購買此類簡歷;而對于其余的簡歷，企業(yè)僅需要付出非常低廉的成本即可獲得。因此獵聘內(nèi)部根據(jù)簡歷的信息，將簡歷進(jìn)行等級劃分。滿足一定標(biāo)準(zhǔn)(如一定收入、一定職級等)、可以進(jìn)行高價(jià)售賣的簡歷，稱為高級簡歷;而剩下的簡歷則稱為白領(lǐng)簡歷。對于獵聘來說，如何快速高效低成本獲取高級簡歷成為用戶獲取工作的重要組成部分。

獲取簡歷的最主要方式是通過在線注冊。求職者通過搜索引擎、網(wǎng)站導(dǎo)航、或者直接輸入網(wǎng)址等各種方式進(jìn)入獵聘之后，即可進(jìn)行在線注冊成為獵聘的用戶。搜索引擎、網(wǎng)站導(dǎo)航等用戶注冊完成后可以填寫基本信息，如當(dāng)前的公司、職位等等——這時(shí)成為了一份“草稿簡歷”——乃至進(jìn)一步填寫完整的工作經(jīng)歷和教育經(jīng)歷信息，最終形成一份完整的簡歷。前面提到的簡歷分級的前提是，必須有一份完整簡歷，這是因?yàn)樵诜旨壍倪^程中，使用了簡歷中多方面的信息，如果簡歷不完整，將無法準(zhǔn)確對簡歷進(jìn)行評價(jià)。在注冊填寫簡歷的過程中，有些用戶如果找工作的意愿并不強(qiáng)烈，他可能就不會把信息完善到最后一步，也就是說他的簡歷狀態(tài)可能停留在了草稿簡歷的階段。但是不排除未來的某一天，他可能會來把自己的簡歷完善。每天注冊并且能夠直接填完的簡歷被稱為即時(shí)簡歷;而并非在當(dāng)天創(chuàng)建，而是歷史上某天被創(chuàng)建的簡歷，如果在當(dāng)天被填寫完整了，則被稱為回歸簡歷。每天新增的簡歷數(shù)，便是由這兩部分組成。這兩部分簡歷其實(shí)對應(yīng)的是兩類人群：主動求職者——急于找工作，所以需要趕緊完成一份簡歷，以便自己應(yīng)聘職位，或者讓企業(yè)和獵頭可以搜索到;以及被動求職者，現(xiàn)在并不著急找工作，想使用獵聘提供的其他功能，如人脈功能，便不用填寫完整的簡歷，也可以在獵聘的平臺上積累人脈，為將來做準(zhǔn)備。對于這兩類人群，圍繞著簡歷數(shù)這一核心KPI，采取的方案其實(shí)并不一樣。對于第一類用戶，為了能夠讓他填寫簡歷更為順暢，需要在產(chǎn)品設(shè)計(jì)和用戶體驗(yàn)上多下功夫，令用戶不覺的填寫簡歷是一個(gè)非常繁瑣的事情，從而提高即時(shí)簡歷的轉(zhuǎn)化率。而對于第二類用戶，由于他自身當(dāng)前并沒有需求，所以改進(jìn)產(chǎn)品對他的影響并不明顯，還需要用各種辦法去引導(dǎo)用戶，讓他去填寫簡歷。

然而通過在線渠道獲得的流量都需要付出高昂的成本，因此對于獵聘來說，需要最大限度地使在線注冊的用戶填寫完整的簡歷，而簡歷召回也就成為了重要的工作內(nèi)容。召回的方式也有很多，包括：系統(tǒng)站內(nèi)信、EDM、短信提醒等等。這些方式成本較低，但是也因?yàn)椴粔蛑苯?，所以效果得不到保證。而效果最好的方式，是通過GCDC的職業(yè)顧問電話直接引導(dǎo)用戶填寫簡歷。當(dāng)然這種方式也是成本最為昂貴的。我們來算一筆賬：職業(yè)顧問的每一通電話的成本可以近似認(rèn)為是固定的C，每通電話之后能夠?qū)⑶舐氄叩暮啔v從草稿簡歷變?yōu)橥暾啔v的概率為P，這個(gè)概率受到多個(gè)因素的影響，也可以近似認(rèn)為是不變的;每份完整簡歷的價(jià)值為V(l)，其中l(wèi)是簡歷等級，而V是隨簡歷等級增加而增加的函數(shù)，不難計(jì)算出獵聘的收益。由于C和P固定，那么Y與V(l)是正相關(guān)的，也就是與l——簡歷等級是正相關(guān)的。同時(shí)，由于每天新增的草稿簡歷數(shù)量眾多，職業(yè)顧問甚至無法全部都打一遍電話，這也要求我們要對草稿簡歷進(jìn)行劃分，找出草稿簡歷中價(jià)值高的簡歷——也就是有更高可能性成為高等級的簡歷——優(yōu)先進(jìn)行召回。

不斷地獲得新鮮的、高質(zhì)量的注冊用戶以及完整簡歷，對于獵聘的商業(yè)模式是一件至關(guān)重要的任務(wù)。目前獵聘的主要用戶獲取來源是網(wǎng)站和手機(jī)客戶端APP。每名新用戶在登錄獵聘網(wǎng)進(jìn)行注冊時(shí)，首先需要填寫個(gè)人的名片信息(圖1-A)。當(dāng)填寫完后，即可進(jìn)入簡歷信息的填寫(圖1-B)。但是，通過數(shù)據(jù)分析我們發(fā)現(xiàn)，許多用戶在填寫完名片信息后，并未進(jìn)入簡歷頁面完成整個(gè)填寫過程。對這部分用戶召回是用戶獲取工作的重要組成部分。但是，每日新注冊用戶數(shù)以萬計(jì)，在人力有限而且成本較高的約束下，電話召回工作無法覆蓋到全部用戶，盲目電話召回的投入產(chǎn)出比低下。如果能夠?qū)崿F(xiàn)對高級用戶進(jìn)行優(yōu)先召回，則可以顯著地提高職業(yè)顧問和用戶獲取部門的工作效率。

二、數(shù)據(jù)描述

(一)數(shù)據(jù)采集

用于建模的訓(xùn)練數(shù)據(jù)主要來自三張表——user_c、user_register和res_user。表user_c主要存儲用戶的名片信息;user_register存儲用戶的注冊信息;res_user存儲用戶的簡歷信息。從這三個(gè)表中我們抽取用戶的名片信息及評級信息。(字段及對應(yīng)含義見表-1)

訓(xùn)練數(shù)據(jù) 數(shù)據(jù)的生成時(shí)間：2014年5月~2015年5月。在這一時(shí)期，用戶注冊流程和評級模型未有變更。

(二)數(shù)據(jù)清洗

構(gòu)建規(guī)范的訓(xùn)練數(shù)據(jù)集是賦予預(yù)測模型良好性能的前提。為此，我們實(shí)施了如下的數(shù)據(jù)清洗步驟：

移除重復(fù)記錄

由于某些技術(shù)原因，數(shù)據(jù)庫中會存在一些重復(fù)信息。為此，首先需要去掉重復(fù)信息，確保每個(gè)用戶ID只在數(shù)據(jù)集中出現(xiàn)一次;

移除含有無效信息的樣例

名片信息的真實(shí)性對基于樣例的機(jī)器學(xué)習(xí)算法(card-rater系統(tǒng)的核心算法是kNN，詳見后文)非常關(guān)鍵。然而出于某些原因，部分經(jīng)理人可能會填寫無效的名片信息，而這種實(shí)例是應(yīng)當(dāng)被看做噪音數(shù)據(jù)移除的。目前，我們對名片信息有效性的判斷策略，主要基于領(lǐng)域知識、法律法規(guī)和公司的產(chǎn)品定位。主要的判斷標(biāo)準(zhǔn)如下：

1)名片信息年齡減去工齡低于16年的，為無效名片信息。依據(jù)是：根據(jù)《中華人民共和國勞動法》第十五條規(guī)定，禁止用人單位招用未滿十六周歲的未成年人;

2)男性年齡超過60周歲、女性年齡超過55周歲的樣例，被認(rèn)定為無效樣本。依據(jù)是《國務(wù)院關(guān)于安置老弱病殘干部的暫行辦法》和《國務(wù)院關(guān)于工人退休、退職的暫行辦法》 (國發(fā)〔1978〕104號)文件所規(guī)定的退休年齡;

3)工齡不足2年，卻在職能部分填寫高級職能(如CEO、總裁等)的，也會被判定為無效信息而移除。這一做法的依據(jù)是基于常識。在實(shí)際情況，有可能這樣的信息可能是真實(shí)的。如注冊用戶創(chuàng)業(yè)、或者繼承了家族企業(yè)的高級領(lǐng)導(dǎo)崗位。但是，一方面，這些情況并不普遍;另一方面，獵聘主要的服務(wù)對象是中高端經(jīng)理人，而非如上兩類人群。

然后，根據(jù)每月新注冊完整簡歷用戶中高級與低級用戶的比例情況，從2014年5月~2015年5月期間每個(gè)月份隨機(jī)抽取用戶1000條。最終得到來自12個(gè)月的共12000條用戶名片記錄。

(三)特征工程

(1)特征選擇

對特征的選擇主要依據(jù)是對業(yè)務(wù)了解。

1)“行業(yè)”屬性不作為有效特征：首先，根據(jù)前期的數(shù)據(jù)統(tǒng)計(jì)分析，行業(yè)本身不會對用戶級別產(chǎn)生影響;其次，在獵聘的業(yè)務(wù)體系中，共涉及13個(gè)大行業(yè)。如果作為特征，那么如何進(jìn)行量化處理是個(gè)難點(diǎn)?！靶袠I(yè)”為非度量屬性，傳統(tǒng)做法是將之映射為13個(gè)二值特征向量，那么維度就由7個(gè)增加至20個(gè)。這會帶來數(shù)據(jù)稀疏性的問題。(尤其對于kNN算法來說，會給預(yù)測準(zhǔn)確性帶來負(fù)面影響);

2)年齡和工齡的選擇：二者通常會呈現(xiàn)顯著的正相關(guān)，但是相關(guān)度并不大(rho≈0.7)。我們的理解是，工齡作為衍生特征，會受年齡和教育水平共同影響。工齡雖然和年齡呈現(xiàn)顯著正相關(guān)(顯著性和受試樣本規(guī)模密切相關(guān))，但是和教育水平呈一定的負(fù)相關(guān)。而教育水平的量化處理又會涉及新的問題，這會使特征的處理復(fù)雜化;何況，衍生特征也并不是給帶來壞處。簡化起見，我們將二者看做獨(dú)立的特征;

3)職能和職位的處理：因?yàn)槎呖坍嫷氖怯脩舻耐环矫?，所以我們將其作為同?a href='/map/tezheng/' style='color:#000;font-size:inherit;'>特征處理。根據(jù)經(jīng)驗(yàn)我們發(fā)現(xiàn)，當(dāng)新注冊用戶在職能列表中找不到與自己當(dāng)前的職能名稱時(shí)，通常會在職能部分選擇“其他”這一選項(xiàng)，然后再在當(dāng)前職位部分手工填寫職位名稱。對此，我們運(yùn)用了一些自然語言處理技術(shù)(如計(jì)算職位名稱與職能名稱的相似度)對用戶的職能進(jìn)行判定。

特征的預(yù)處理

kNN是涉及距離計(jì)算的機(jī)器學(xué)習(xí)算法，距離的計(jì)算方式直接決定著模型的性能。特征的內(nèi)在屬性不同，決定著其在可度量性和有序性上的差異，因此需要采取不同的特征表示方法[1]。

1)非度量屬性的二值化處理：性別屬性不可度量，也難以實(shí)現(xiàn)可序化。因此，我們將之映射為兩個(gè)特征——“是否為男性”和“是否為女性”。每個(gè)特征均設(shè)定為二值屬性(是→1;否→0);

2)可度量離散特征的有序化處理：如我們將城市按照一線、二線、三線以下城市劃分為三個(gè)數(shù)值級別;所在公司設(shè)定為國外上市、國內(nèi)上市、未上市三個(gè)級別，同樣的方法還應(yīng)用于學(xué)歷特征和職位特征的處理;

3)連續(xù)特征的離散化處理：我們會選取幾個(gè)數(shù)值點(diǎn)分別對年齡、工齡進(jìn)行離散化處理，年齡(工齡)越高，則設(shè)置的數(shù)值越高。(嚴(yán)格來講，二者屬于離散特征;但是由于其在性質(zhì)上與連續(xù)特征更為接近，需要進(jìn)一步的離散化和有序化處理，因此，我們稱之為連續(xù)特征)

至此，我們確定了如下8個(gè)特征：性別(男、女)、出生年份、開始工作年份、最高學(xué)歷、職能、當(dāng)前公司、當(dāng)前工作的城市。將每個(gè)名片的相關(guān)特征信息進(jìn)行歸一化處理后，用于后續(xù)的建模分析。

三、數(shù)據(jù)建模

(一)模型設(shè)定

綜合考慮公司的業(yè)務(wù)特點(diǎn)和數(shù)據(jù)平臺情況，我們選擇了基于混合策略的排序方法： k近鄰算法 + 過濾規(guī)則。

k近鄰(k-Nearest Neighbors，簡稱kNN)是一種常用的監(jiān)督式學(xué)習(xí)方法[2,3,4]。其基本思想是：相似的對象具有相同或者相近的類別。如果一個(gè)對象在特征空間中的k個(gè)距離最近、最相似的訓(xùn)練樣本大多數(shù)屬于某個(gè)類別，則該對象可以被判定屬于該類別。

本項(xiàng)目中，我們選擇kNN主要基于如下考慮：

1)kNN工作機(jī)制簡單，訓(xùn)練開銷?。簁NN是懶惰學(xué)習(xí)(lazy learning)的著名代表，沒有顯式的學(xué)習(xí)過程，訓(xùn)練階段僅僅是把樣本保存起來。這相較于需要大規(guī)模訓(xùn)練的機(jī)器學(xué)習(xí)算法(如深度學(xué)習(xí))建模效率更高;

2)kNN具備良好的性能：kNN雖然簡單，但是有理論研究表明，它的泛化錯(cuò)誤率不超過貝葉斯最優(yōu)分類器的錯(cuò)誤率的兩倍[5];

3)數(shù)據(jù)維度低而稠密：我們的數(shù)據(jù)的可用特征只有8個(gè)，這在很大程度上避免了機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)常面臨的數(shù)據(jù)稀疏性問題。因此，使用基于樣例學(xué)習(xí)的kNN算法能滿足業(yè)務(wù)對性能的需求;

4)良好的解釋性與靈活性：使用kNN可以很容易地給出每個(gè)樣例屬于高級用戶的概率值并根據(jù)大小進(jìn)行排序。GCDC部門只需要按照分?jǐn)?shù)由高到低的順序進(jìn)行撥打即可。

在建模時(shí)，我們隨機(jī)抽選高級/普通用戶實(shí)例各600個(gè)作為訓(xùn)練實(shí)例。對于每一個(gè)新的實(shí)例，計(jì)算其與每個(gè)訓(xùn)練實(shí)例的歐式距離，選取距離最近的k個(gè)實(shí)例(k值的選取依賴于交叉驗(yàn)證)，采用“多數(shù)表決”的策略，計(jì)算新樣例屬于高級用戶的可能性(打分在1~100分)，并根據(jù)分?jǐn)?shù)高低對用戶進(jìn)行排序，推薦給用戶獲取部門作為召回策略的重要參考。

從如上的計(jì)算過程我們知道，對于每一個(gè)新的樣例，kNN需要計(jì)算其與每個(gè)訓(xùn)練樣本的距離。如果訓(xùn)練樣例的數(shù)量較大的話，該計(jì)算步驟比較耗時(shí)，且耗費(fèi)內(nèi)存。為提高打分效率，我們引入了基于規(guī)則的“低端職位過濾”機(jī)制。

從業(yè)務(wù)角度來講，獵聘主要的產(chǎn)品瞄準(zhǔn)的是中高端人才。因此中高端經(jīng)理人是獵聘的優(yōu)先服務(wù)對象。為此，我們構(gòu)建了一個(gè)“常用低端職位詞典”(如“擺地?cái)偂?、“司機(jī)”、“服務(wù)員”等)。如果一個(gè)新的樣例的職位名稱存在于該職位詞典中，則被直接判為0分，而無需進(jìn)入kNN算法的相關(guān)計(jì)算環(huán)節(jié)，這樣就顯著提高了打分效率。同時(shí)，也可以提高準(zhǔn)確率。

(二)模型的評估結(jié)果

因?yàn)閿?shù)據(jù)量不大，模型的調(diào)參、測試過程均在桌面PC進(jìn)行。每個(gè)樣本的計(jì)算平均耗時(shí)0.07s。我們繪制ROC對card-rater的效果進(jìn)行評價(jià)。用戶獲取團(tuán)隊(duì)會結(jié)合自己的業(yè)務(wù)需要選擇不同的分?jǐn)?shù)閾值對用戶進(jìn)行召回。

四、業(yè)務(wù)實(shí)施

內(nèi)部ERP系統(tǒng)會每天給GCDC的職業(yè)顧問分配一個(gè)撥打計(jì)劃，職業(yè)顧問按照該撥打計(jì)劃進(jìn)行簡歷的召回。之前撥打計(jì)劃的生成邏輯是人工指定的規(guī)則，如根據(jù)行業(yè)、地區(qū)等方式進(jìn)行排序。在草稿簡歷分級模型上線之后，每天由數(shù)據(jù)團(tuán)隊(duì)離線計(jì)算好高優(yōu)先級的候選草稿簡歷，并按照可能性從高到低進(jìn)行排序。ERP團(tuán)隊(duì)每天從數(shù)據(jù)平臺拉取相關(guān)數(shù)據(jù)，并生成撥打計(jì)劃，直接將模型計(jì)算的結(jié)果推送給GCDC的職業(yè)顧問，無縫嵌入職業(yè)顧問的工作流程。在實(shí)施過程中，采取了灰度上線的方式，起初撥打計(jì)劃中只有一定比例的數(shù)據(jù)是來自數(shù)據(jù)團(tuán)隊(duì)的模型。對于由數(shù)據(jù)團(tuán)隊(duì)生成的部分，進(jìn)行了追蹤監(jiān)控，觀察效果。并逐漸增加這個(gè)比例，最終完全取代老的撥打計(jì)劃生成規(guī)則。該模型從2015年12月起上線，2016年1月召回簡歷中商業(yè)簡歷的占比從51%提升到78%，而到2016年3月時(shí)，商業(yè)簡歷占比已經(jīng)上升到95%，為業(yè)務(wù)帶來了切實(shí)的價(jià)值提升。

五、總結(jié)討論

從目前應(yīng)用的效果來看，自動名片分級系統(tǒng)取得了令人滿意的效果。為了進(jìn)一步提升效果，完成更為強(qiáng)大的名片分級功能，我們考慮從以下三個(gè)方面進(jìn)行后續(xù)工作：

(一)嘗試新算法進(jìn)行細(xì)粒度的預(yù)測

在獵聘的業(yè)務(wù)中，用戶共有5個(gè)級別。而目前的名片分級系統(tǒng)將之轉(zhuǎn)化為二分類問題。如何實(shí)現(xiàn)對五個(gè)級別分別進(jìn)行預(yù)測，仍然面臨著較大的挑戰(zhàn)。我們可以考慮使用有序回歸(Ordinal Regression)，直接對用戶級別進(jìn)行預(yù)測。此外，集成算法(如Random Forest、Gradient Boosting)以其的優(yōu)良性能，受到工業(yè)界的廣泛關(guān)注。我們也計(jì)劃嘗試使用該類方法進(jìn)行探索性試驗(yàn)，以期進(jìn)一步提高模型的預(yù)測準(zhǔn)確率;

(二)設(shè)計(jì)更多的特征

新用戶的注冊行為本身也蘊(yùn)含著與其用戶級別相關(guān)的重要信息，如注冊時(shí)間、簡歷完整程度等。后續(xù)工作中，我們會嘗試對這些行為數(shù)據(jù)進(jìn)行挖掘。

(三)解決信息缺失問題

我們模型在使用時(shí)的一個(gè)基本假設(shè)是，用戶填寫了全部的名片信息。但是實(shí)際情況是，有相當(dāng)比例的新注冊的用戶未填寫職能信息和所在城市信息。這就導(dǎo)致很多的高級用戶，因?yàn)槲刺峁┳銐虻男畔?，而在評分系統(tǒng)中得分很低。對此，我們還需要在產(chǎn)品設(shè)計(jì)、運(yùn)營等方面做更多的努力。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

特征機(jī)器學(xué)習(xí) 數(shù)據(jù)清洗 KPI 集成算法 KNN 字段數(shù)據(jù)建模

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統(tǒng)競選大戲開鑼，川普當(dāng)選的奇跡會再發(fā)生嗎？

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

免密碼登錄

提交首次登錄驗(yàn)證后自動注冊