亚洲精品少妇18禁网站,国产又色又爽的视频免费播放

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

海量數(shù)據(jù)對比分析，技術面試里的那些門道

2018-05-12

海量數(shù)據(jù)對比分析，技術面試里的那些門道

眾所周知，技術能力的評價是技術求職者的重要的一項指標。但是，求職者的面試表現(xiàn)到底是如何被判定的呢？怎樣的面試分數(shù)統(tǒng)計才能更加靠譜地衡量求職者的真實水平呢？美國的在線技術面試平臺 interviewing.io 通過分析海量數(shù)據(jù)，給出了自己的答案。

1 為什么面試數(shù)據(jù)能進行對比分析？

面試官和面試者通過我們的平臺進行溝通時，他們面對的是一個協(xié)作的編碼環(huán)境，可以進行語音、文字聊天，以及通過白板來直接討論技術問題。面試官通常來自不同的大公司，比如 Google、Facebook 或 Yelp，還有專注于工程的新興公司，例如 Asana、Mattermark、KeepSafe 等。

每一次面試后，面試官會對面試者進行全面打分，包括其技術能力。技術能力的打分范圍是 1~4 分，1 分代表“資質一般”，而 4 分代表“非常棒！”。在我們的平臺上，通常 3 分及 3 分以上就意味著這個面試者能力不錯，可以進行下一輪面談。

這時候，你可能會說，這聽上去還不錯，但也沒什么特別的吧？很多公司都將這類數(shù)據(jù)收集在它們的渠道之中。而我們的數(shù)據(jù)與眾不同的是：同一位面試者可以進行不同的面試，每次和不同的面試官或者不同的公司進行面試，這就可以進行一定程度可控的、有趣的對比分析。

2 為什么你的面試表現(xiàn)波動不穩(wěn)？

我們的數(shù)據(jù)顯示：同一個人在一次面試中的表現(xiàn)，其數(shù)據(jù)有相當大的波動，這很讓人驚訝。請先來看一個圖直觀感受一下。在下圖中，每個 ICON 代表一個參加了 2 次及 2 次以上面試的面試者的平均技術分數(shù)。Y 軸表示其表現(xiàn)的標準差，數(shù)值越大，代表這個面試者的表現(xiàn)越不穩(wěn)定。鼠標懸停在圖中每個 ICON，你可以深度研究面試者的每次表現(xiàn)。（數(shù)據(jù)來自 2016 年 1 月的 299 份面試，去掉了分數(shù)小于 2 的面試記錄。）

面試表現(xiàn)的標準差和平均值

正如你所看到的，大約 25% 面試者的表現(xiàn)非常穩(wěn)定，其余的卻布滿了整個圖（即非常不穩(wěn)定）。我們非常好奇，波動性是否隨人的平均分數(shù)而變化。換句話說，是實力較弱的參與者比實力更強的波動更為劇烈嗎？答案是否定的——當運行標準差與平均值回歸，我們想不出任何有意義的關系（R2~ = 0.03），這意味著人們布滿整張圖（即非常不穩(wěn)定），不管他們有多強的實力。

許多人至少得到一次 4 分也至少得到一次 2 分。

看一看較高分區(qū)域范圍（3.3 分或者更高），變化是在合理范圍內的。

看一看“平均”表現(xiàn)者（2.6~3.3 分），數(shù)據(jù)看上去就很混亂不定。

如果是我，需要根據(jù)這些數(shù)據(jù)作出一個決定，聘用哪一位面試者，就是管中窺豹了。那就好像是，欣賞墻上的油畫，或者挑選酒窖里的好酒，甚至可能只是看到沙發(fā)的背面而已，太主觀隨意了。

正因如此，你可能會說，無論什么原因，這樣來比較技術分數(shù)都是錯誤且幼稚的，至少有種情況，對同一個面試者，一個面試官可能打 4 分而另外一個面試官可能打 2 分。我們在本文的附錄中探討了這個問題。這個問題確實需要討論。然而我們大多數(shù)面試官都來自非常有實力的工程品牌公司，為了確保品牌實力，他們不會改變面試者面試表現(xiàn)的不穩(wěn)定性，也不會修改面試官的打分。

那么，真實生活中，你要作出決定是否要招聘某個人時，你可能需要盡最大努力避免兩件事——錯誤肯定（錯誤地引進低層次的人）和錯誤否定（拒絕了你本應該招聘的人才）。大多數(shù)頂尖公司的面試范例指出，錯誤肯定比錯誤否定還要惡劣。這有道理嗎？因為有足夠多的渠道和人才資源，即使有很高的錯誤否定率，你還是會得到你想要的人才。

但是，如果錯誤肯定率很高，你招聘了更低層次的人才，潛在地，在某種程度上，你也給你的產(chǎn)品、文化以及未來招聘標準帶來了不可逆的損害。當然，公司為整個產(chǎn)業(yè)設置的招聘標準和方式，看上去是有很多的渠道且源源不斷的人才資源。

然而，優(yōu)化高錯誤否定率的弊端，會給現(xiàn)有的工程招聘標準帶來危機。目前典型的招聘案例是否給出了足夠的信息？或者說，基于對人才如此大的需求，是否錯過了有資質的人才，僅僅因為我們管中窺豹？

那么，拋開蒼白夸張的說教，考慮到面試者表現(xiàn)的不穩(wěn)定性，一位優(yōu)秀的面試者在一次面試中可能失敗的原因是什么呢？

3 面試失敗的原因，源于你的表現(xiàn)

接下來，你可以看到整體接受面試人群的平均表現(xiàn)的分布圖：

面試者平均技術表現(xiàn)分布圖

要計算出一位給定平均分數(shù)的面試者面試可能失敗的幾率，我們必須做一些統(tǒng)計工作。首先，基于面試者的平均分數(shù)（近似 0.25），我們把面試者分成幾組。然后，對每一組，我們計算出他們失敗的可能性，即得到 2 分或者更少的分數(shù)。

最后，為了讓圍繞著起始數(shù)據(jù)集的工作量不那么大，我們重新采樣了數(shù)據(jù)。在重新采樣的過程中，我們把一個面試結果當作一個多項分布，或者換言之，假設每個面試者都是一個加權的 4 面骰子，與所在的組群相對應。然后，我們再扔幾次骰子，給每一組創(chuàng)建一個新的“模擬”的數(shù)據(jù)集，然后用這些數(shù)據(jù)集計算出新的失敗概率。下面，你會看到 10000 次重復這個過程的結果。

用平均分數(shù)模擬的面試結果

如圖所示，上面的分布彼此重疊。這很重要，因為這些重疊告訴我們，這些分布組可能沒有顯著差異（例如 2.75 和 3 之間）。當然，隨著更多海量的數(shù)據(jù)，每組之間的輪廓可能更加明朗。另一方面，如果需要大量的數(shù)據(jù)來檢測失敗率的差異，這可能表明，人的行為在本質上是高度可變的。在完成這些之后，我們可以非?？隙ǖ卣f，低端光譜（2.25）和高端光譜（3.75）之間有顯著差異，但居于中間的人的狀態(tài)，還是混亂不定。

然而，使用這些分布圖，只能計算出得到某個平均分數(shù)的面試者會失敗的概率（參見下面陰影區(qū)域 95% 置信區(qū)間）。而整體素質很強的人（例如平均值~ = 3），可能會搞砸技術面試，高達 22%。這一事實，表明了面試過程肯定還有改進的余地，同時也使頻譜中間模糊區(qū)域更大（即看不清楚狀態(tài)的人會更多）。

平均分數(shù)對應的面試失敗概率

4 面試結果，真的是一錘定音？

通常，一想到面試，就會想到那些可重復的結果，可以得到關于面試者足夠多的資歷信息。然而，我們收集到的數(shù)據(jù)，雖然它可能很薄弱，卻給出了一個截然不同的結果。而且，這個結果與我以往作為一名招聘人員的經(jīng)驗相一致，并且這些看法在技術社區(qū)中也是存在的。

Zach Holman 的 Startup Interviewing is Fucked（譯注：《創(chuàng)業(yè)公司不切實際的面試工程師的方法》一文）認為：面試過程與亟需人才的工作是脫節(jié)的。TripleByte（譯注：也是美國的一個技術招聘平臺）通過觀察自家的數(shù)據(jù)，也得出了類似的結論。最近，rejected.us（譯注：一個分享用戶面試失敗經(jīng)歷的平臺）也得出關于面試結果不穩(wěn)定的更深刻的表述。

我絕對相信，許多曾經(jīng)被 A 公司拒絕的人，會在另一次面試中表現(xiàn)得更好，最終以人格魅力結束面試，6 個月后被招入 A 公司。盡管每個人都付出最大努力，但是招聘流程陷入了一個怪圈，混亂不定、隨機且糟糕。

是的，技術面試本身就是失敗的，它沒有為面試案例提供可靠的確定性信息，這當然有可能。算法面試是一個熱議的話題，我們很感興趣。特別讓我們興奮的一件事是，跟蹤面試表現(xiàn)作為面試的函數(shù)類型，我們得到平臺上越來越多不同的面試類型 / 方法。的確，我們的長期目標之一是，真正挖掘數(shù)據(jù)，看看不同的面試風格，以及寫出重要的數(shù)據(jù)驅動語句，哪一種技術面試會給出最有力的信息。

然而，與此同時，相比這樣一個重要的決定僅僅基于一次任意的面試，我會認為利用整體表現(xiàn)更有意義。整體表現(xiàn)，一方面可以幫助糾正異常不佳的表現(xiàn)，一方面也可能不小心淘汰那些最終在面試中表現(xiàn)很好的人，或隨著時間的推移，淘汰那些僅僅記住 Cracking the Coding Interview（中文版：《程序員面試金典》）的人。

我知道，像這樣不嚴謹?shù)厥占w表現(xiàn)數(shù)據(jù)，整體表現(xiàn)并不總是有效的。但至少，在這種情況下，只要面試者的表現(xiàn)勉強合格，或他們的表現(xiàn)與你所期望的大相徑庭，那么就再做一次面試，或許能發(fā)現(xiàn)些許不同的特質，然后再作出最后的決定。

5 為什么面試的原始分數(shù)有說服力？

你們會充滿疑問，使用原始分數(shù)來評估面試者，這肯定會有一些很明顯的問題。我們現(xiàn)在來討論一下。問題是，即使面試官可能是高級工程師級別，經(jīng)驗很豐富，原始分數(shù)仍只是由反饋組成，他們不會修正面試官的嚴格標準（例如，一個面試官給 4 分，而另一個面試官給 2 分），也不會適應面試技能的變化。在內部，使用一個更復雜的和全面的評級系統(tǒng)來確定面試技能，如果可以表明，原始分數(shù)與計算出來的評級緊密關聯(lián)，那么，相對地使用原始分數(shù)，我們不會覺得不好。

我們的評級系統(tǒng)的工作原理是這樣的：

基于每個反饋項的加權平均，為每次面試創(chuàng)建一個分數(shù)。

針對每位面試官，我們使用這個分數(shù)，對他們面試的每位面試者進行互相比較。

基于比較結果，使用貝葉斯排名系統(tǒng)（Glicko-2 修改版本），為每位面試者評級。

因此，每個人只能與同一位面試官面試的其他人比較，僅僅基于分數(shù)而排名。這意味著，一位面試官的分數(shù)從來沒有與另一位面試官的分數(shù)直接進行比較，所以我們就避免了面試官嚴格標準的不一致問題了。

話又說回來，為什么我要提起這個？你們都是聰明人，你可以分辨，哪些人已經(jīng)完成了面試題，哪些人還在假裝做數(shù)學題。在做所有這些分析之前，我們想確保我們相信自己的數(shù)據(jù)。我們已經(jīng)做了很多工作來構建一個可信的評級系統(tǒng)，與原始編碼分數(shù)關聯(lián)起來，來看看它們在決定實際技能上是如何強大。