
機器學習、數(shù)據(jù)、隱私和更大的善
機器學習能夠?qū)】颠M行跨類預測。社交媒體上,新媽媽們的行為和語言使用能夠被用來預測是否產(chǎn)后抑郁。
研究人員創(chuàng)造了一些術語,例如數(shù)字疾病檢測和信息監(jiān)測 ,來定義這類利用不同的數(shù)字信息流進行公共衛(wèi)生和政策信息通報的新科學,例如流行病的早期識別,疾病的傳染性和流動性建模,個人疾病風險分類等。這種新形式的健康研究也會擴展那些由傳統(tǒng)健康記錄和人體試驗得出的結論。比如,藥物不良反應的檢測可以結合美國食品和藥物管理局的不良反應報告系統(tǒng)及匿名搜索日志加以改善。搜索日志可以作為一個大規(guī)模的傳感系統(tǒng),用來監(jiān)測藥物安全——藥物警戒。
信息監(jiān)測研究通常是指對公開披露或私有匿名數(shù)據(jù)的大規(guī)模綜合分析,就人群中公共健康問題得出結論和見解。然而,一些方法和模型可以針對特定個體加以推測,從而采取一些舉措來改善個體或公共健康狀況,例如警報或者進行數(shù)字干預(digital nudging)。
盡管數(shù)字干預顯示出良好前景,但是,英國最近發(fā)生的一次事件,讓人們注意到它也會對隱私造成困擾。Good Samaritan是Twitter上一款預防自殺的應用,通過監(jiān)測用戶在Twitter上的用語,這款應用能夠預測該用戶患有精神疾病的風險并通知該用戶的關注者,以便他們能介入以避免可能發(fā)生的自殺。但是,這項技術令輿論嘩然,也引發(fā)監(jiān)管機構的擔憂,隨后被關閉。批評人士擔心,這款應用會鼓勵在線騷擾者和恃強凌弱者將矛頭指向這些脆弱個體,他們的請愿書指出,這款應用收集、處理并分享敏感信息,侵犯了用戶隱私,并收集到了1200個志愿者。雖然開發(fā)者預防自殺的初衷值得嘉獎,但是,此項非盈利之舉卻因它將試圖拯救的那些人的隱私和精神健康視為兒戲而遭到訓斥。
機器學習可以促進信息環(huán)境與社會環(huán)境之間的交流,借助遠超醫(yī)療環(huán)境的非醫(yī)療數(shù)據(jù)就健康狀況或者傾向做出跨類推測(category-jumping)。這對隱私的影響是深遠的。跨類推測可能會揭露一個人特意向別人隱瞞的問題或狀況。為了防止出現(xiàn)這些違背意愿的現(xiàn)象,美國對健康護理隱私嚴加監(jiān)管。但是,雖然從健康理療和支付中獲得的健康狀況信息能夠以一種尊重患者隱私的方式加以保護,但是,機器學習和推測可以繞開許多現(xiàn)存的保護機制。
即使不是跨類推測,機器學習也能從自我揭露、看似良性的數(shù)據(jù)以及易于觀察的行為中,進行強大而折衷的推論( powerful and compromising inferences)。這些結論可能會與隱私法的根本目的相?!獋€人有權決定誰知道以及知道自己哪些隱私。機器學習和預測會讓人們越來越難判斷:根據(jù)自己或明或暗共享過的信息,他人有權獲知自己的哪些隱私。這些計算機收集健康狀況的信息渠道與其他技術手段聯(lián)手之后,會讓既有健康隱私的保護機制出現(xiàn)很大漏洞。特別是,面對大量可以用來再次識別個體的各種輔助性數(shù)據(jù),我們很難將公開分享過的數(shù)據(jù)組去識別化(deidentify)。
現(xiàn)有的美國隱私制度將個人健康狀態(tài)隱私保護與被先驗確定為健康信息的特定文本或特定信息類型關聯(lián)起來,機器學習的威力讓這種規(guī)定的根本局限性無所遁形?,F(xiàn)有美國健康隱私規(guī)則和隱私法律都是基于這一假設:孤立環(huán)境中的數(shù)據(jù)語義相對固定并且可知。但是,機器學習卻被用來從數(shù)據(jù)、跨數(shù)據(jù)中來預測新的數(shù)據(jù)語義,通常不受美國隱私法約束。例如,使用Twitter上的公開推文來預測產(chǎn)后抑郁癥風險,這并不違反現(xiàn)有的隱私法。由于文章是公開共享的,這樣做可能并不會讓人吃驚,也似乎不成問題,但是,這種預測行為也會導致令人不安的后果。
當前的隱私法通常采用雙重責任(double duty)。作為基本原則,法律會限制有權訪問個人信息的主體。這也間接限制了信息能夠影響決策的范圍,因此也進一步限制了信息引發(fā)歧視的機會。出于對隱私的高度敏感以及健康方面歧視的關注,還另立法律,對健康醫(yī)療數(shù)據(jù)文本之外的健康信息使用緊行規(guī)制。美國法律明確限制了不當使用健康信息的行為。例如, 決定就業(yè)、信貸或住房時,法律通常禁止信用報告機構提供醫(yī)療信息?!睹绹鴼埣踩朔ò浮?ADA)禁止身體或精神殘疾歧視,甚至不允許人們這么認為個體備受殘疾折磨。如果機器學習被用來推斷某人患有身體或精神障礙,那么,即使推斷是錯誤的,雇主據(jù)此決定聘用對方的行為也違反了法律。
但是,《美國殘疾人法》并不禁止歧視殘疾傾向(predispositions)。機器學習也能發(fā)現(xiàn)那些殘疾傾向。理論上,《禁止基因信息歧視法案》(GINA)應該通過保護基因上具有殘疾傾向的人來填補這一空白。但是,機器學習又讓這種保護變得困難。盡管GINA禁止以基因測試或某種疾病的家族遺傳史等信息為基礎的歧視,但是,機器學習能從其他類型數(shù)據(jù)中發(fā)現(xiàn)這些殘疾傾向,GINA并未限制人們利用這些信息進行歧視(即使它還是根植于基因問題)。換句話說,機器學習能從非基因信息(包括遺傳傾向引發(fā)的健康變化)中預測未來的健康狀況,規(guī)避現(xiàn)有法律。
正如機器學習會暴露隱私一樣,它也為社會分類——對人分門別類,不同類別不同待遇——提供條件,無論這種處理的初衷如何(善或惡、好或壞)。為了將個體納入公共健康計劃和干預機制,對其進行分門別類的方法也能輕易地被用于邪惡的目的,例如,通過歧視來保護組織的利益。
美國和其他國家的決策者們剛剛開始著手梳理機器學習預測對信守隱私、公平帶來的挑戰(zhàn)。白宮公布了一份報告,討論了大規(guī)模數(shù)據(jù)分析可能導致歧視,雖然沒有特別關注健康信息,但是,報告和美國聯(lián)邦貿(mào)易委員會(FTC)都建議采取新舉措來保護隱私、整治惡意使用信息并增加透明度。
FTC是監(jiān)管商業(yè)活動中不公平、欺詐性交易的關鍵部門,包括那些涉及隱私與個人信息安全的商業(yè)活動。試行的隱私政策鼓勵公司將技術與政策機制結合來,防止再次識別(reidentification)。試行規(guī)定力圖確保數(shù)據(jù)「不能進行合理識別」,也要求上市公司(public company)承諾不會再次識別經(jīng)過反識別處理的數(shù)據(jù)。試行也適用于數(shù)據(jù)下游使用者。這一政策方針有望適用于機器學習以及以數(shù)據(jù)為中心的分析領域中來。通過鼓勵公司減少數(shù)據(jù)池和數(shù)據(jù)分享對個人隱私造成的風險,使對大量數(shù)據(jù)組的學習和數(shù)據(jù)分享成為可能。
FTC的規(guī)定部分取材于機構近期采取的一些行動,行動焦點正是我們謂之「文本跨越(context-jumping)」的預測行為。有一個頗受關注的案例,Netflix公開一批數(shù)據(jù)組支持競爭以改善公司的推薦算法。當公司以外的研究人員用輔助數(shù)據(jù)重新識別、推測來自Netflix數(shù)據(jù)組的個體敏感特征時,F(xiàn)TC與Netflix合作,對將來公開預測結果進行了限制——FTC上述限制規(guī)定正是源于此。遵循類似脈絡,F(xiàn)TC反對改變Facebook的默認規(guī)定:可以根據(jù)已經(jīng)公開的個體隸屬組別中的敏感信息,諸如政治觀點和性別取向,進行預測。
除此之外,F(xiàn)TC也努力確保個體能夠控制在線跟蹤以及移動網(wǎng)絡環(huán)境。部分是因為人們可以從巨大的數(shù)據(jù)集合中進行比較隱秘的推測,給用戶帶來風險,比如,市場活動中,用戶會被分門別類地予以特殊對待。在某相關規(guī)定中,F(xiàn)TC建議國會要求數(shù)據(jù)掮客(data brokers)——那些搜集用戶個人信息予以出售或分享的公司——向客戶清楚說明他們搜集的數(shù)據(jù)信息并如實告知客戶,公司從這些數(shù)據(jù)中得到了一些預測。這里,F(xiàn)TC再次表明,它的關注點不僅僅是原始數(shù)據(jù),還包括基于這些數(shù)據(jù)作出的預測。
奧巴馬政府的大數(shù)據(jù)計劃也考慮到機器學習給隱私造成的威脅以及機器推測在市場活動中帶來的潛在威脅,計劃總結道,我們需要更新隱私政策,提高消費者保護和民主權利機構的技術專業(yè)性以描述出大數(shù)據(jù)引發(fā)的新奇的歧視議題,并為個體提供隱私保護工具,讓公民可以控制、管理個人信息管理,增加公司使用和交易數(shù)據(jù)的透明度。政府也關心機器學習在政策與國家安全方面的使用情況。白宮報告要求提高專業(yè)技術,幫助民主權利和消費者保護機構識別、調(diào)查以及消弭會對受保護階層帶來歧視效應的大數(shù)據(jù)分析使用。
請注意,政府報告和法律規(guī)定清楚強調(diào)了政策規(guī)范關注的是數(shù)據(jù)使用,而不是數(shù)據(jù)收集。盡管我們也需要工具來幫助用戶控制自身數(shù)據(jù)收集的時間和方式,但是,政府的建議是讓個體有權參與到如何使用與公開搜集到的數(shù)據(jù)的決策過程中來??偨y(tǒng)科技顧問委員會(PCAST)出具的一份獨立報告的結論是,技術保護這個方向更加富有成效。兩份報告均建議,基于數(shù)據(jù)使用的保護能更好地描述出潛在數(shù)據(jù)意義——使用機器學習對數(shù)據(jù)進行預測——也能適應數(shù)據(jù)豐富規(guī)模以及將來的關聯(lián)環(huán)境。 政府呼吁各方通力合作以確保對健康數(shù)據(jù)文本的規(guī)制使以下期待成為可能:享受機器學習和預測的好處的同時降低其可能招致的風險。這種基于數(shù)據(jù)使用的保護方法也經(jīng)常得到工業(yè)領域的支持,該領域傾向于將數(shù)據(jù)視為一種自然資源,無論是出于商業(yè)目的還是公共利益,都要對之進行開采,抵制限制數(shù)據(jù)搜集的舉措。
盡管當前陷入僵局的國會不太可能,也不會完全依從這些建議,但是,采用它們會增強數(shù)據(jù)搜集、使用以及相應后果的透明度。連同努力識別、限制不公平或歧視性數(shù)據(jù)的使用和推測等建議,它們都是頗為有用的舉措。這些建議也與歐盟目前有關數(shù)據(jù)處理透明度與公平性的隱私法律,特別是全自動化決策可能給個體造成的風險方面,步調(diào)一致。
目前歐盟的法律要求實體為個人提供獲得決策數(shù)據(jù)的途徑以及決策標準的信息【參看第21款第12條和第15條】。盡管目前有歐盟統(tǒng)一指令約束,但是,具體規(guī)定仍是各國法律的事情。當個體要求獲取數(shù)據(jù)和進行加工時,他們能夠獲取的權限大小會隨著各國對「全自動化 」過程施加限制的不同而所有不同。歐盟想要采用一項高于本地法律的數(shù)據(jù)隱私規(guī)定,實行單一國家標準。盡管現(xiàn)有草案包含平行條款,但是,最終版本以及如何進行最終解釋都尚不清楚(27)。
理論上,歐盟提出了一項新要求來公開數(shù)據(jù)的處理邏輯,這可以得到廣泛適用,同時也預示著將有公開途徑獲得數(shù)據(jù)分析及算法。歐盟將基于當前歐盟的統(tǒng)一指令,就獲取數(shù)據(jù)和處理邏輯的程度補充一些細節(jié),在這之前的過渡期,今年夏天將有望出臺一項決議。
對數(shù)據(jù)擁有者來說,提高數(shù)據(jù)處理的透明度至關重要又頗具挑戰(zhàn)。盡管這一目標會促進我們加深對運作方式或機器學習和推理方法的可能輸出結果的實際理解,但是,算法和決策標準的工作流和機制或許難以進行描繪和解釋。例如,流行的卷積神經(jīng)網(wǎng)絡學習程序能夠自動催發(fā)豐富的、多層的表征,但對于這些表征,可能開發(fā)者自己都無法清晰理解。盡管可以提供對步驟和表征的高級描述,但是,即便是一個能夠取得源碼的嫻熟程序員, 也無法對這一系統(tǒng)的準確運行進行描述,無法對一組既定輸入值的輸出結果進行準確預測。
數(shù)據(jù)的意義已經(jīng)成為了一個不斷移動的目標。數(shù)據(jù)集可以通過去定義化被輕易的組合成重新定義的數(shù)據(jù)集,感知知識可從常規(guī)和雜亂分享的良性數(shù)據(jù)中推斷出來。這對目前美國利用合法手段進行隱私保護造成了困難,他們的保護手段往往是基于數(shù)據(jù)的可識別性和明確含義對其進行管理。
基于應用的解決方案在一定程度上僅聚焦于有限的數(shù)據(jù)收集,這是不夠的。因為從某種程度上來說,這種做法預設了數(shù)據(jù)是可被基于某種原則進行收集的純粹的物品,無論何時何地。雖然我們尚未準備好廢棄掉數(shù)據(jù)收集的限制,但我們對此表示同意——基于應用的管理條例是未來法律藍圖的重要部分,盡管實施起來將面臨挑戰(zhàn),但它將有助于促進隱私、平等和公共物品的保護。在提高透明度的同時還要平衡隨之而來的各種限制,基于應用的解決方案將需要格外強調(diào)個人數(shù)據(jù)的獲取、準確性和修正權利。
盡管關于個人健康信息的管理條例的演化還不完整,但它卻提供給了我們一個有價值的圖景,使我們能夠?qū)裉焖媾R的機遇和挑戰(zhàn)進行思考,同時也為潛在解決方案提出了框架思路。在醫(yī)療健康領域,隱私條例中總會包含不歧視條款,同時也伴隨著支持研究的特殊條款。如今,隱私條例與集體管理模型聯(lián)系在了一起,后者的設計初衷是鼓勵將支持研究的生物樣本庫數(shù)據(jù)進行匯總,同時保護集體隱私。
盡管還有些較為現(xiàn)實的挑戰(zhàn),我們?nèi)韵M咧贫ㄕ吆凸娔軌蚓蛿?shù)據(jù)、機器學習的能力進行開誠布公的討論,這將為接下來的程序和政策提供富有洞察力的設計思路,我們一方面需要保護隱私和確保公平,另一方面也需要享受(基于個人數(shù)據(jù)的)科學研究成果給個人和公眾帶來的好處,程序和政策的設計有利于在這兩者之間取得平衡。我們對隱私和公正的追求是永恒的,我們的政策必須適應這種進步,同時也要支持深化我們認識的新技術。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內(nèi)涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10