99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀如果我們心存偏見,還能做好數(shù)據(jù)分析嗎
如果我們心存偏見,還能做好數(shù)據(jù)分析嗎
2017-01-16
收藏

如果我們心存偏見,還能做好數(shù)據(jù)分析嗎

馬克·安德森(Marc Andreessen)的一句名言:“軟件正在吞噬整個世界?!备餍懈鳂I(yè)發(fā)現(xiàn),分析對保持競爭力至關(guān)重要。政府則發(fā)現(xiàn),分析對履行政府義務(wù)至關(guān)重要。

我們可能會因為和我們擁有相同購買或信用記錄的其他人曾經(jīng)開車不小心,而不是因為我們自己曾經(jīng)開車不小心,而在購買汽車保險時被收取更高的費用。這就是偏見的本質(zhì):假定一個人將像同類的其他人那樣行事。

計算領(lǐng)域的一條重要戒律,就是計算機不能改變?nèi)祟愗?zé)任。如果人類做某件事情是不合法或不道德的,那么人類創(chuàng)造的計算機程序做這件事情也是不合法或不道德的。但太多的人把計算機程序作為擋箭牌?!拔覀兪窃谑褂糜嬎銠C分析程序,所以沒有關(guān)系”,這就是數(shù)字版的“我只是按命令行事”。

在以色列電視喜劇《阿拉伯勞工》(Arab Labor)里,阿拉伯人主角沮喪地發(fā)現(xiàn),他經(jīng)常在檢查站被攔下。他問一位以色列朋友,如何避免這種情況。朋友建議他買一輛特定牌子和型號的汽車。阿拉伯人照做了。神奇的是,他開始順利通過檢查站,再也沒有受到騷擾。面對預(yù)測分析,會有很多人尋找那輛能夠讓自己度過困境的“好車”。

新聞記者和政策制定者正漸漸意識到一個問題,某些最有前途、最強大的計算工具存在巨大的缺陷。隨著預(yù)測分析進入越來越多的領(lǐng)域——推送廣告;開拓新市場;作出重要決定,比如讓誰得到貸款,讓誰得到新工作,甚至是把誰送進監(jiān)獄和暗殺誰這樣的倫理道德決定——某些特定群體遭受歧視和偏見的跡象日益增多。

本文著重探討分析中這種普遍趨勢的技術(shù)和社會層面。我研究了分析在執(zhí)行過程中為什么難以做到公平公正,以及這說明分析處于怎樣的社會背景。關(guān)于這個話題,美國計算機協(xié)會(ACM)舉辦的一場研討會和我圍繞這場研討會所做的研究為我提供了一些有用見解。

分析無處不在

預(yù)測分析似乎證實了馬克·安德森(Marc Andreessen)的一句名言:“軟件正在吞噬整個世界?!备餍懈鳂I(yè)發(fā)現(xiàn),分析對保持競爭力至關(guān)重要。政府則發(fā)現(xiàn),分析對履行政府義務(wù)至關(guān)重要。這些壓力推高了數(shù)據(jù)科學(xué)家(數(shù)據(jù)科學(xué)不只是統(tǒng)計學(xué),但擁有深厚的統(tǒng)計學(xué)背景是必要條件)的薪水,并且使得市場調(diào)研公司Gartner作出了數(shù)據(jù)科學(xué)家將大量短缺的預(yù)測。

分析(更準確地說是模擬)甚至在近期熱門電影《薩利機長》(Sully)中扮演了重要角色,但基本上是反派。該片說明了人類社會日益依賴算法的一個最令人不安的方面:身居高位、權(quán)力巨大的政策制定者有時會讓算法替他們作出判斷,而他們根本不明白算法的運行機制和可能造成的后果。在《薩利機長》中,調(diào)查員把一條事關(guān)重大的錯誤信息輸入系統(tǒng),還用不切實際的假設(shè)情境來訓(xùn)練系統(tǒng)。當(dāng)這些計算的受害者對模擬背后的假設(shè)情境提出質(zhì)疑時,調(diào)查員自鳴得意地說:“我們運行了20次模擬!”他們沒有意識到,這20次模擬都是建立在同樣的錯誤假設(shè)之上,將會得出同樣的錯誤結(jié)論。當(dāng)受害者要求查看詳細的輸入數(shù)據(jù)時,他們打官腔拒絕了這一要求。雖然《薩利機長》可能精心安排了事件背后的一些事實,但對于分析在現(xiàn)代生活中的使用,該片為我們提供了很多經(jīng)驗教訓(xùn)。

需要指出的是,分析可以幫助作出正確決策。在我參加ACM的那場研討會期間,我的信用卡提供商進行的分析發(fā)現(xiàn),有人竊取了我的信用卡信息,試圖盜用我的卡。他們的專家分析系統(tǒng)立刻凍結(jié)了這張卡,沒有造成金錢損失。雖然在旅行途中發(fā)現(xiàn)我的卡被凍結(jié),給我?guī)砹瞬槐?,但我還是感激那些保護了我和銀行的分析工具。

使用分析的大多數(shù)公司希望通過減少主觀性來減少偏見。偏見一直都存在,不需要計算機。越來越多的研究表明,工作面試無法有效地判定誰能做好這份工作,原因主要在于我們面對面評估應(yīng)聘者時作出的倉促決定,這很容易受到內(nèi)隱偏見的影響。對大腦運作的研究顯示,白人和亞洲人在潛意識里對黑人抱有根深蒂固的不信任感,這使得改善警察執(zhí)法實踐的努力面臨著更大的困難(舉個例子)。偏見很早就開始影響人們的生活。黑人學(xué)生和白人學(xué)生在學(xué)校里做出同樣的違規(guī)行為,黑人學(xué)生更容易受到處罰。我們從小就受到由來已久的偏見影響。

不幸的是,預(yù)測分析常常重現(xiàn)社會的偏見,因為它們的創(chuàng)造者是帶有偏見的人,或者因為它們使用帶有偏見的歷史數(shù)據(jù)進行訓(xùn)練。

一個廣為人知、無可爭辯的例子來自于拉坦婭·斯威尼(latanya sweeney)在2013年所做的研究。斯威尼是著名的隱私研究員,她最為人所知的,是證明了公共記錄可以被用來揭露美國馬薩諸塞州州長威廉·維爾德(William Weld)的醫(yī)療信息。這促使健康隱私法律作出了重大修改。她在2013年進行的研究顯示,在谷歌(Google)上搜索美國黑人的常用名,往往會出現(xiàn)給出此人逮捕記錄的廣告。搜索白人的常用名,則往往不會出現(xiàn)這樣的廣告。但是人事經(jīng)理、房東等人在搜索潛在候選人時,如果出現(xiàn)這樣的廣告,會很容易被嚇阻,尤其是當(dāng)一群求職者中只有黑人應(yīng)聘者的名字導(dǎo)致這種廣告出現(xiàn)的時候。

很多政策行動組織都簽署了一份《大數(shù)據(jù)時代民權(quán)原則》(Civil Rights Principles for the Era of BigData)的文件,呼吁公平公正,但沒有說具體如何做到這一點。在美國,恐怕會很難讓政策制定者關(guān)注到這個問題,因為新上臺的當(dāng)權(quán)者們自己就公開宣揚偏見和歧視,但有道德心的程序員及其雇主將會繼續(xù)尋找解決辦法。

讓我們看看這對弄清分析中的偏見意味著什么。

成為有辨別力的思考者

我記得一位小學(xué)老師對她的學(xué)生們說,她希望我們成為“有辨別力的思考者”。區(qū)別對待有時是好事。如果某人曾經(jīng)借錢揮霍,購買自己買不起的昂貴物品,那么不給他貸款對銀行和公眾都有好處。問題是我們用什么標(biāo)準來加以區(qū)別。

ACM研討會的與會者們對道德標(biāo)準進行了一番討論。分析專業(yè)人士是否應(yīng)該建立某種具體的道德標(biāo)準來控制分析的使用?或者,專家是否應(yīng)該以公開透明為目標(biāo),讓公眾了解決策的制定過程,而不建立具體的道德標(biāo)準?

我認為,最好的做法是堅持被廣泛接受的社會標(biāo)準。例如,在上世紀60年代,美國以憲法第一修正案為依據(jù),禁止民族、種族和宗教歧視。后來,性別和殘疾被加入保護行列,然后是性取向(在22個州的管轄范圍內(nèi)),近期則是性別認同(也就是跨性別者和非二元性別者)。1948年的聯(lián)合國《世界人權(quán)宣言》在第二條中呼吁人人平等,“不分種族、膚色、性別、語言、宗教、政治或其他見解、國籍或社會出身、財產(chǎn)、出生或其他身份等任何區(qū)別。并且不得因一人所屬之國家或領(lǐng)土的政治、法律管轄或者國際地位之不同而有所區(qū)別,無論該領(lǐng)土是獨立領(lǐng)土、托管領(lǐng)土、非自治領(lǐng)土或者處于其他任何主權(quán)受限制的情況之下”。這里的“其他身份”表述模糊,但其余部分相當(dāng)明確具體。

簡而言之,就是由參與公共討論的政治實體和政策制定者來決定什么可以區(qū)別對待,什么不可以。在某些情況下,計算機算法可能會使用種族和性別這樣的標(biāo)準來作出雇傭等決定,哪怕使用這些標(biāo)準并不合法。

計算領(lǐng)域的一條重要戒律,就是計算機不能改變?nèi)祟愗?zé)任。如果人類做某件事情是不合法或不道德的,那么人類創(chuàng)造的計算機程序做這件事情也是不合法或不道德的。但太多的人把計算機程序作為擋箭牌?!拔覀兪窃谑褂糜嬎銠C分析程序,所以沒有關(guān)系”,這就是數(shù)字版的“我只是按命令行事”。

1976年出版的一本經(jīng)典論著《計算機能力與人類理性:從判斷到計算》(Computer Power and Human Reason: From Judgment To Calculation)也傳達了同樣的訊息。該書作者約瑟夫·魏澤鮑姆(Joseph Weizenbaum)提出了一條關(guān)于人工智能的重要原則。他說,問題不在于計算機能不能夠作出事關(guān)人類重要活動的決定,而在于它們應(yīng)不應(yīng)該作出這樣的決定。

因此,我認為,很多法律和政策聲明已經(jīng)明確了我們應(yīng)該警惕偏見的領(lǐng)域。本文將會逐漸說明,這些政策考量會推動技術(shù)方面的決定。

數(shù)據(jù)科學(xué)家凱茜·奧尼爾(Cathy O'Neil)在深受好評的《數(shù)學(xué)殺傷性武器》(Weapons of Math Destruction)一書中,提出了幾個令人信服的觀點,包括:

由于企業(yè)是從他人那里購買數(shù)據(jù)或分析的,數(shù)據(jù)的收集和處理常常是以層級為單位發(fā)生的。算法最初的不透明性會隨著層級的累加而增大,每個層級引入的錯誤因素也是如此。

將我們與趨勢進行比較的算法,最終會用他人的行為來評判我們,而不是用我們自己的行為來評判我們。我們可能會因為和我們擁有相同購買或信用記錄的其他人曾經(jīng)開車不小心,而不是因為我們自己曾經(jīng)開車不小心,而在購買汽車保險時被收取更高的費用。這就是偏見的本質(zhì):假定一個人將像同類的其他人那樣行事。

一旦某人被劃入表現(xiàn)糟糕者的行列,被認為是不可靠的員工、潛在的罪犯或者信用不好的人,那么算法就會進行區(qū)別對待,使他失去機會,越來越把他推向貧窮和缺乏機會的境地。

奧尼爾的彌補方案不只是檢測偏見,還包括通過一個廣泛的社會項目來評估社會的目標(biāo),把對抗經(jīng)濟壓力的公平性考慮在內(nèi),利用算法幫助弱勢者,而不是懲罰他們。

透明性的陰暗面

透明性可以說是我們這個時代的戰(zhàn)斗口號:讓所有人看到你的決策過程!全球已有70個國家加入了開放政府伙伴關(guān)系聯(lián)盟(Open Government Partnership),承諾讓公民參與財政預(yù)算和法律法規(guī)的制定。其中的大多數(shù)國家一如往常,繼續(xù)面對著戰(zhàn)爭、腐敗和其他問題。

但先不要對透明性過于悲觀。從很多方面來說,透明性正在提升,這得益于更高的教育水平和新的傳播媒體。開源運動大大加強了程序的透明性。開源軟件或其他措施能否使預(yù)測分析更加公平呢?

利用分析對人進行分類的企業(yè)擔(dān)心,被分析的對象如果了解輸入數(shù)據(jù)的標(biāo)準,就可以把分析系統(tǒng)玩弄于股掌之上。很多標(biāo)準涉及到難以改變的重要生活特征,比如收入。但也有很多標(biāo)準似乎只是更重要特征的簡單代表,這就有可能讓精明的分析對象弄虛作假。

在以色列電視喜劇《阿拉伯勞工》(Arab Labor)里,阿拉伯人主角沮喪地發(fā)現(xiàn),他經(jīng)常在檢查站被攔下。他問一位以色列朋友,如何避免這種情況。朋友建議他買一輛特定牌子和型號的汽車。阿拉伯人照做了。神奇的是,他開始順利通過檢查站,再也沒有受到騷擾。面對預(yù)測分析,會有很多人尋找那輛能夠讓自己度過困境的“好車”。

因此,那些密切關(guān)注分析使用狀況的人承認,透明性并不總是好事。一些專家反對在分析中使用簡單的二元標(biāo)準,說這種標(biāo)準過于粗糙,無助于作出正確決定。我認為,無數(shù)家機構(gòu)的經(jīng)歷已經(jīng)證明,這樣的粗糙標(biāo)準很容易被看穿。分析對象的狀況在不斷變化,所以標(biāo)準必須與時俱進。

對于加強透明性的努力來說,還有另一個障礙需要克服:一些公司的分析會變來變?nèi)?,谷歌的排名算法就是如此。外人不可能透徹了解每一項變動。另外?a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>機器學(xué)習(xí)技術(shù)往往會生成令人費解的決策樹,就連編寫這些程序的人自己都搞不明白。

另一方面,固定不變的算法可能會逐漸偏離正確的預(yù)測,因為作為輸入數(shù)據(jù)一部分的生活狀況在不斷變化。這解釋了道瓊斯工業(yè)平均指數(shù)(DJIA)為什么時不時地改變包含的成分股公司:在19世紀80年代構(gòu)成美國經(jīng)濟主要部分的那些公司要么已經(jīng)消亡,要么變得無足輕重,而現(xiàn)代經(jīng)濟的主要構(gòu)成部分在那時甚至根本無從想象(最初的12間DJIA成分股公司,現(xiàn)在只剩下了通用電氣這一間)。出于類似的原因,分析必須時常用新的、準確的輸入數(shù)據(jù)進行重新計算。當(dāng)分析產(chǎn)品被出售時,我們又會遇到另一種風(fēng)險:它們可能會逐漸偏離現(xiàn)實,沉淪于過去,從而對依靠它們的公司和被它們錯誤分類的人造成負面影響。

力量的不平衡也扮演了非常重要的角色。本文稍后會以一篇論述刑事量刑的著名文章為背景,向大家說明,從外部對算法發(fā)起挑戰(zhàn)是極為困難的,因為部署算法的機構(gòu)比作為分析對象的個人要遠為強大得多。亞歷克斯·羅森布拉特(Alex Rosenblat)、塔瑪拉·克尼斯(Tamara Kneese)和丹娜·博伊德(DanahBoyd)撰寫的一篇文章指出,要贏得歧視訴訟是很難的。也許,實現(xiàn)公平公正的最有效方法是讓企業(yè)把他們的分析交給某個評審委員會審查,類似于評審學(xué)術(shù)研究的機構(gòu)審查委員會(IRB),由很多利益相關(guān)者組成,包括可能受到分析不利影響的人。這樣的委員會是否有能力評估深奧的算法還是個未知數(shù),但至少他們能告訴程序員,某些輸入數(shù)據(jù)是否存在固有偏見。

彌補措施

在學(xué)術(shù)界以外,批評預(yù)測分析存在偏見的人一直致力于揭露那些偏見(請注意,他們也在使用同樣的機器學(xué)習(xí)工具?。?。他們常常暗示,應(yīng)該停止使用分析工具來作出對人類產(chǎn)生深遠影響的決定。分析的預(yù)期影響是一個標(biāo)準,企業(yè)可以據(jù)此判斷是否信賴分析。企業(yè)利用A/B測試來確定網(wǎng)站訪客點擊綠色圖標(biāo)的次數(shù)是否超過藍色圖標(biāo),看上去沒有什么不好。另一方面,F(xiàn)acebook通過信息推送來影響用戶情緒的做法被廣泛視作為不道德行為。

所以說,社會尚未弄清楚分析的適當(dāng)角色,或者在分辨不良后果方面還不夠熟練——技術(shù)專家Meng Weng Wong稱此為“誤算法”(malgorithm)。而分析實在太過強大,太有用處,我們也不能樂于拒絕。

一種彌補方案是讓用戶有機會挑戰(zhàn)分析結(jié)果,就像幾十年前美國聯(lián)邦貿(mào)易委員會(Federal Trade commission)頒布的、被很多公司以各種形式采納的“公平信息實踐原則”(FIPPS)那樣。企業(yè)可以通過任何方式作出決定,但過程必須透明,并賦予個人挑戰(zhàn)該決定的權(quán)利。歐盟已經(jīng)將這一原則寫入了2016年4月的《數(shù)據(jù)保護指令》,該指令對上世紀80年代的隱私法規(guī)進行了補充更新。此外,普林斯頓大學(xué)的一個團隊也為那些希望打造公平算法的程序員編制了一份指南。

關(guān)于分析的指導(dǎo)性假設(shè)是,使用分析的機構(gòu)能夠提供其決定的可審查記錄?!稊?shù)據(jù)保護指令》要求信息處理者向任何個人提供作出某個決定的理由,比如拒絕貸款申請的決定。

這個原則立意很好,但難以落實。主要有以下幾個問題:

首先,個人必須清楚分析被用來達成了某個決定,必須知道是哪家公司做出了這個決定,必須明白自己有權(quán)挑戰(zhàn)該決定,必須清楚提出挑戰(zhàn)的途徑和程序,必須感到這么做是安全的。

在很多情況下,這些條件并不是全都具備。例如,如果廣告算法偏向男性,沒有向某位女性展示她本來有資格應(yīng)聘的招聘廣告,她永遠都不會知道自己成為了這種歧視的受害者。她也很難知道誰應(yīng)該為這個決定負責(zé)。如果使用該算法的那家公司控制著你的生活,比如你的雇主或者你投保的保險公司,那么你很可能寧可息事寧人,不要求進行調(diào)查。

分析必須透明。有時候這很容易做到。例如,Wolfram Alpha將公布它用來返回搜索結(jié)果的規(guī)則。有些分析就確實有規(guī)則可依,且已經(jīng)公開了自己的規(guī)則

允許個人提出挑戰(zhàn)的彌補方案不具有普遍意義:即使個人敢于要求推翻已經(jīng)作出的決定,這也無助于改善系統(tǒng)的整體公平性。企業(yè)可能會為了某個人而重新審視其決定,但不會停止這種可能傷害成千上萬人的做法。實際上,歐盟的《數(shù)據(jù)保護指令》并非在反映全社會的共同需求,而是把人們當(dāng)成孤立的個體對待,而任何個體都不會有足夠大的個人影響力來改變不公平的系統(tǒng)。

有鑒于此,似乎應(yīng)該要求進行分析的企業(yè)提供多種形式的透明性。

首先,它們需要確定并披露出自己一直被用于作出影響個人的決定。

企業(yè)應(yīng)該和利益相關(guān)者(尤其是受系統(tǒng)影響的人群)進行開誠布公的討論,談?wù)勈裁词枪?,以及系統(tǒng)是否準確反映了人們生活的真實情況。

對人們生活產(chǎn)生重大影響的所有預(yù)測分析系統(tǒng)還應(yīng)該接受查驗或追蹤。不接受查驗的系統(tǒng)有如不打印選票的電子投票機:它們根本不適合這項工作。

著名計算機科學(xué)家辛西婭·德沃克(CynthiaDwork)發(fā)明了一種驗證公平性的有趣方法,她稱之為“覺知性公平”。借助差分隱私實驗,她的團隊試圖利用密碼學(xué)來驗證算法的公平性。不幸的是,這項技術(shù)恐怕過于復(fù)雜,無法整合進“正在吞噬整個世界”的分析系統(tǒng)。

計算機科學(xué)家們在一篇論文中談到了另一種方法:把公平性測試整合到系統(tǒng)開發(fā)過程中。這篇論文提出了一個有趣的前提:我們不能對種族、性別等差異視而不見。我們必須清楚地意識到這些差異,必須明確地測試它們。這種“平權(quán)法案”方法完全不同于某些統(tǒng)計學(xué)家和數(shù)據(jù)科學(xué)家的觀點:他們相信,他們能夠遠離社會影響,他們的技術(shù)可以保證客觀性。

案例研究:刑事量刑

在本文最后,將會探討最廣為人知的一項分析偏見研究,并從中得出一些新的結(jié)論。我說的是一篇關(guān)于為已定罪罪犯量刑的著名文章。今年5月,這篇文章發(fā)表于民間新聞網(wǎng)站ProPublica,在讓公眾了解預(yù)測分析的風(fēng)險方面發(fā)揮了重要作用。朱莉婭·安格溫(Julia Angwin)及其合著者將關(guān)注點放在了一款名叫COMPAS的軟件上,很多地方的司法機關(guān)都用這款軟件來決定是判罪犯緩刑還是把他們關(guān)進監(jiān)獄。作者們說,這樣的決定帶有種族偏見,因為黑人罪犯比白人罪犯更容易被COMPAS劃入高風(fēng)險類別(意味著他們更可能在緩刑期內(nèi)再次犯罪),這是不公平的。

作者們本來可以說COMPAS常常出錯,但很多時候都是對的。他們本來可以建議,鑒于錯誤率較高,法官只應(yīng)該把COMPAS當(dāng)成眾多的判決依據(jù)之一。但他們卻更進一步,將自己推入了一場激烈的爭論之中。

所有人似乎分成了兩派:

COMPAS的算法對于白人和黑人將犯下更多罪行(再次犯罪)的預(yù)測同樣準確。

COMPAS的算法對于黑人將再次犯罪的預(yù)測失誤率遠高于白人,這是錯誤的,也傷害了黑人群體,指控他們將會再次犯罪,而事實上他們并不會這樣。

那么,什么是公平?

ProPublica的分析引發(fā)了爭議。幾位評論員說,ProPublica沒有考慮到另一個重要差異:黑人罪犯被判二次犯罪的可能性確實遠高于白人罪犯。The American Conservative網(wǎng)站發(fā)文解釋了ProPublica為什么會得出這樣的結(jié)論?!度A盛頓郵報》的一篇文章也提出了同樣的觀點?;旧蟻碚f,這些文章都聲稱,黑人罪犯比白人罪犯更容易被劃入高風(fēng)險類別,這是由輸入數(shù)據(jù)決定的,不可能受到人為操縱。

COMPAS軟件的開發(fā)機構(gòu)Northpointe在反駁ProPublica的那篇文章時,也提出了這一看法。對于ProPublica指控COMPAS將黑人錯誤地劃入高風(fēng)險類別的可能性遠高于白人的核心論斷,Northpointe反駁說:“這種模式?jīng)]有顯示出存在偏見的跡象,而是使用公正的評分規(guī)則得出的自然結(jié)果。那些群體碰巧呈現(xiàn)出不同的評分分布?!彼麄円昧艘豁椃窍嚓P(guān)研究的結(jié)果,說他們沒法做手腳調(diào)高黑人的高風(fēng)險評分。

Northpointe還說,在那項研究中,白人的年紀往往比黑人更大,這降低了他們再次犯罪的可能性。ProPublica的研究確實發(fā)現(xiàn),年齡與犯罪緊密相關(guān)。他們也以其他理由批評ProPublica的研究,但在我看來,黑人更可能被再次逮捕的傾向是所有這些評論的核心議題。

我們能從這場爭論中得出很多有趣的通用結(jié)論。首先,數(shù)據(jù)科學(xué)本身就充滿爭議。盡管該領(lǐng)域以客觀性為目標(biāo),但統(tǒng)計學(xué)家們并不總是意見相合。其次,在評判分析的影響時,評判者肯定會受到自身價值觀的影響。ProPublica認為,COMPAS所遵循的道德標(biāo)準已經(jīng)偏離了Northpointe采用的那些標(biāo)準。

但我們應(yīng)該從中吸取的主要教訓(xùn),則是提出以下問題:黑人的再犯率為什么更高?如果這是ProPublica所說的偏見的來源,為什么會發(fā)生這種情況?

在這里,我們必須借助社會科學(xué)研究,這些研究的探討范疇往往要比這篇文章廣泛得多?;旧蟻碚f,研究人員已經(jīng)證明,在避免犯罪方面,黑人往往缺乏白人所能獲得的種種支持。米歇爾·亞歷山大(Michelle Alexander)的著作《新種族隔離主義》(The New Jim Crow)對此作了很好的論述。與白人相比,黑人不太可能擁有可以幫助他們找到工作的聯(lián)系人,不太可能被聘用(尤其是在有犯罪前科的情況下),不太可能得到住房和其他賴以為生的重要資源,通常也不太可能擁有使他們免于再次犯罪的社會結(jié)構(gòu)。

因此,預(yù)測分析結(jié)果的差異幫助我們看到了現(xiàn)實生活中的差異。

斯威尼的研究也得出了類似結(jié)論。她發(fā)問道:谷歌不恰當(dāng)?shù)卣故竞谌顺S妹摹按队涗洝睆V告,誰應(yīng)該為此負責(zé)?谷歌和提供那些廣告的公司都否認存在任何蓄意偏見。我傾向于相信他們,因為他們?nèi)绻桃獾匕逊N族歧視思想融入到廣告展示中,將會面臨很大的風(fēng)險。那么,還有什么其他的答案呢?終端用戶行為:普通網(wǎng)絡(luò)用戶搜索黑人逮捕記錄的頻率肯定超過白人。這種社會偏見被算法捕捉并融入到了自己的分析過程中。

《麻省理工科技評論》的一篇文章表達了同樣的看法,認為普通人的偏見會通過評級系統(tǒng)傳遞到臨場經(jīng)濟(contingent economy)中。于是,我們得到的就是卡通人物勃哥(Pogo)的那句經(jīng)典結(jié)論:我們已經(jīng)遇到了敵人,那就是我們自己?;蛘撸眠~克·魯克德斯(MikeLoukides)的話來說:“我們的AI就是我們自己。”

可能的彌補措施

數(shù)據(jù)科學(xué)家本能地通過兩個辦法來驗證準確性:檢查輸入數(shù)據(jù)和檢查分析模型。為我們提供數(shù)據(jù)的真實環(huán)境就存在不公平的歧視時,需要我們積極進行詳細檢查,不遺余力地消除數(shù)據(jù)中的偏見。就像前文提到的COMPAS,顯然依據(jù)的就是帶有種族偏見的數(shù)據(jù)。我們應(yīng)該有意識地采取措施恢復(fù)分析系統(tǒng)的公平性。

程序員和數(shù)據(jù)科學(xué)家可以成為對抗偏見的先鋒。但是算法領(lǐng)域的用戶和監(jiān)管該領(lǐng)域的政策制定者也可以發(fā)揮帶頭作用,主動要求對算法進行審查。理想情況下,分析將會公開給公眾接受審查,但由于上文提到的那些原因(保護商業(yè)機密、避免系統(tǒng)被玩弄于股掌之上等等),這通常無法實現(xiàn)。不過,可以按照嚴格的許可規(guī)定,授權(quán)一群專家以找出潛在偏見為目的,對數(shù)據(jù)和算法進行評估。

承認偏見是壞事(這個原則現(xiàn)在常常受到質(zhì)疑)后,公眾需要采取的第一步就是明白算法可能引入和強化偏見。然后,我們必須認識到,偏見不是來自于程序員(哪怕他可能是白人、男性和高收入者)或程序,而是來自于幾千年來造成社會不公的那些因素。算法不是客觀的,但它們客觀地體現(xiàn)了人類自身的罪孽。


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }