
作者 | David Weinberger編譯 | CDA數(shù)據(jù)分析師
偏見是機(jī)器學(xué)習(xí)的原始罪過。它嵌入在機(jī)器學(xué)習(xí)的本質(zhì)中:系統(tǒng)從數(shù)據(jù)中學(xué)習(xí),因此 很容易發(fā)現(xiàn)數(shù)據(jù)所代表的人為偏見。例如,接受過美國現(xiàn)有職業(yè)培訓(xùn)的ML招聘系統(tǒng)很可能會“學(xué)到”,女性與首席執(zhí)行官之間的聯(lián)系不佳。
徹底清除數(shù)據(jù)以使系統(tǒng)不會發(fā)現(xiàn)任何隱藏的有害關(guān)聯(lián)可能非常困難。即使經(jīng)過最大程度的照顧,機(jī)器學(xué)習(xí)系統(tǒng)也可能發(fā)現(xiàn)偏向模式是如此微妙和復(fù)雜,以至于無法被人類原本最好的關(guān)注所掩蓋。因此,計算機(jī)科學(xué)家,政策制定者以及任何與社會正義有關(guān)的人們目前都在關(guān)注如何避免AI產(chǎn)生偏見。
然而,機(jī)器學(xué)習(xí)的本質(zhì)也可能使我們以新的,富有成效的方式思考公平。我們與機(jī)器學(xué)習(xí)(ML)的相遇開始為我們提供概念,詞匯和工具,使我們能夠比以前更直接,更準(zhǔn)確地解決偏見和公平問題。
我們長期以來將公平視為道德原始。如果您問某人一個不公平的例子,那么他們談?wù)搩蓚€收到不同數(shù)量Cookie的孩子的可能性就非常高。這顯然是不公平的,除非他們之間存在一些相關(guān)的差異來證明這種差異是合理的:其中一個孩子年齡更大,或者更大,或者同意做額外的家務(wù)來換取餅干等。在這種簡單的表述中,公平被定義為除非有一些相關(guān)的區(qū)別證明不平等待遇是合理的,否則人的平等待遇。
但是什么構(gòu)成“相關(guān)區(qū)別”?事實是,我們比不公平更容易達(dá)成共識。我們可能都同意種族歧視是錯誤的,但是六十年后,我們?nèi)栽跔幷摗镀綑?quán)行動》是否是一種公平的補(bǔ)救辦法。
例如,我們都同意,在20世紀(jì)70年代,它是不公平的女性音樂家組成少的五大交響樂團(tuán)的5%樂團(tuán)。在這種情況下,我們可能會同意,實際的樂團(tuán)樂隊研究所似乎更為公平:通過將申請人的試鏡放在幕后以掩蓋性別的陰影下,五個頂級交響樂團(tuán)中的女性比例在1997年上升到25%,現(xiàn)在上升到30%。
但是,是否存在性別盲目的過程足以使結(jié)果真正公平?也許文化偏見會給男性音樂家?guī)矸巧飳W(xué)上的優(yōu)勢-例如,如果更多的男人被頂級音樂學(xué)院錄取,他們可能會接受更好的音樂教育。幾個世紀(jì)以來,音樂表現(xiàn)的水準(zhǔn)一直圍繞著典型的男性特征或喜好形成,例如手掌大小或表現(xiàn)的侵略性。是否有30%足以讓我們宣布樂團(tuán)現(xiàn)在在對待女性方面是公平的?也許,音樂家的性別比例應(yīng)該達(dá)到51%,才能反映出整個國家的總體性別統(tǒng)計數(shù)據(jù)?還是應(yīng)該反映出樂隊中男女申請人的百分比?還是比部分糾正導(dǎo)致人們在樂團(tuán)中人數(shù)過多的歷史偏見更高的水平?(更不用說,整個討論都假設(shè)性別是二元的,不是的。)
機(jī)器學(xué)習(xí)可以幫助我們進(jìn)行此類討論,因為它要求我們以高度精確的方式指導(dǎo)我們,從道德上講我們會接受哪種結(jié)果。它為我們提供了以更清晰,更富有成效的方式進(jìn)行這些討論的工具(通常是爭論)。
這些工具包括源自機(jī)器學(xué)習(xí)最常見任務(wù)的詞匯:決定將給定輸入放入哪個bin。如果輸入是意大利面條醬工廠的傳送帶上的番茄的實時圖像,則該垃圾箱可能會標(biāo)記為“可接受”或“丟棄”。每個輸入都將分配給具有附加置信度的垃圾箱:72例如,確定此番茄可食用。
如果對西紅柿進(jìn)行分類是系統(tǒng)的基本任務(wù),那么您將要關(guān)心有多少西紅柿被錯誤分類了:ML將哪些西紅柿放入“丟棄”堆中,將多少壞西紅柿放入“可接受的垃圾箱”中-錯誤的批準(zhǔn)和錯過的機(jī)會。而且,由于對垃圾箱的分配始終基于置信度,因此ML為其設(shè)計人員提供了滑塊,以調(diào)整結(jié)果以反映公平的不同定義。
例如,如果是您的番茄工廠,那么您可能最在乎新ML番茄分選應(yīng)用程序的整體準(zhǔn)確性。但是,監(jiān)管者可能會更擔(dān)心壞番茄進(jìn)入批準(zhǔn)箱中,而不是將好番茄扔進(jìn)丟棄箱中。或者,如果您是一個骯臟的番茄工廠老板,那么扔掉好番茄比在醬汁中加入一些爛番茄可能會更不高興。
ML要求我們完全清楚自己想要什么。如果您擔(dān)心壞番茄將其放入醬汁中,則必須決定您(以及您的客戶以及律師)可以與多少壞番茄一起生活。您可以通過調(diào)整將西紅柿放入批準(zhǔn)箱中所需的置信度來控制此百分比:您是要將閾值置信度設(shè)置為98%還是將其降低到60%?將滑塊向左或向右移動時,您將把更多好的西紅柿放到“丟棄”箱中,或者將更多的壞西紅柿放入“批準(zhǔn)的”箱中。
用ML的話來說,放在“丟棄”箱中的被忽略的好西紅柿是假陰性,而放入“批準(zhǔn)”箱中的壞西紅柿是假陽性。
當(dāng)我們談?wù)搶①J款申請分類到“批準(zhǔn)”或“拒絕”箱中的過程時,這些術(shù)語會很有用。(出于此假設(shè)的目的,我們將忽略任何有關(guān)貸款批準(zhǔn)程序的法規(guī)。)假設(shè)有30%的申請人是女性,但在“批準(zhǔn)的垃圾箱”中只有10%的申請是女性。但是,除了查看女性獲得批準(zhǔn)的百分比或拖欠貸款的男性和女性比例之外,也許我們應(yīng)該查看“拒絕女性”分類中誤報的百分比是否高于女性的百分比。拒絕人員區(qū)中的誤報。
ML領(lǐng)域的研究人員還為我們在這里以及其他地方討論的公平類型提供了精確的定義,并使用了“人口統(tǒng)計平價”,“預(yù)測匯率平價”和“反事實公平”等名稱。與專家討論這些問題可以使這些討論更容易進(jìn)行,并且對論點的各個方面都有更全面的理解。他們沒有告訴我們在任何情況下都采用哪種類型的公平性,但是它們使我們更容易就該問題提出富有成效的論據(jù)。
在更高的抽象水平上也是如此,因為我們可以決定什么才是ML系統(tǒng)的成功。例如,我們可以訓(xùn)練ML貸款應(yīng)用程序分類程序來優(yōu)化自身,從而為我們的業(yè)務(wù)帶來最高的利潤?;颢@得最高收入。或為最大數(shù)量的客戶。我們甚至可以出于經(jīng)濟(jì)公正的考慮而決定,我們要向較貧窮的人提供一些貸款,而不是總是向周圍的最富有的人提供貸款。我們的機(jī)器學(xué)習(xí)系統(tǒng)應(yīng)使我們能夠判斷風(fēng)險,調(diào)整我們希望在“批準(zhǔn)的”收款箱中的低收入人群的百分比,或為我們提供的貸款設(shè)置最低盈利水平。
ML還清楚地表明,我們無法始終(甚至通常)針對我們可能擁有的每個價值來優(yōu)化結(jié)果。例如,在這種假設(shè)下,貸款公司可能會發(fā)現(xiàn),將更多的低收入申請人納入“批準(zhǔn)的垃圾箱”會影響該垃圾箱中女性的比例??梢韵胂竽荒芡瑫r為兩者優(yōu)化系統(tǒng)。在這種情況下,您可能希望找到另一個愿意修改的值,以便為低收入人群和婦女創(chuàng)造更公平的結(jié)果。也許,如果您將公司的風(fēng)險增加到可接受的程度,則可以實現(xiàn)兩個目標(biāo)。機(jī)器學(xué)習(xí)系統(tǒng)為我們提供了進(jìn)行此類調(diào)整并預(yù)測其結(jié)果的杠桿。
當(dāng)我們看到更高層次的抽象時-從使用滑塊調(diào)整容器中的混合,到關(guān)于優(yōu)化可能不一致的值的問題-ML告訴我們公平不是簡單而是復(fù)雜的,它不是絕對的而是問題權(quán)衡。
ML無奈的字面性要求我們做出的決定自然可以導(dǎo)致討論聽起來像對道德的高尚論點或?qū)夹g(shù)的專業(yè)術(shù)語爭執(zhí)不休,而更像是具有不同價值觀的人之間的政治論點:優(yōu)質(zhì)番茄醬或廉價醬能最大化我們的利潤?增加樂隊中女音樂家的比例還是維持當(dāng)前樂器的配置?向低收入人群發(fā)放貸款,但也許會降低女性比例?
如果機(jī)器學(xué)習(xí)以新的精度提出了這些問題,為我們提供了討論這些問題的詞匯,并讓我們嘗試進(jìn)行調(diào)整以查看針對所關(guān)注的值優(yōu)化系統(tǒng)的最佳方法,那么這是向前邁出了一步。并且,如果機(jī)器學(xué)習(xí)使我們根據(jù)我們關(guān)心的價值觀來討論針對不公平情況的補(bǔ)救措施,并準(zhǔn)備做出現(xiàn)實的妥協(xié),那么對于許多道德論證來說,那也不是一個壞模型。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10