亚洲高清有码中文字,色综合亚洲一区二区小说

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

大數(shù)據(jù)對不同的社會(huì)群體不會(huì)厚此薄彼

2015-12-07

大數(shù)據(jù)對不同的社會(huì)群體不會(huì)厚此薄彼

大數(shù)據(jù)的鼓吹者希望人們相信，在一行行的代碼和龐大數(shù)據(jù)庫的背后存在著有關(guān)人類行為模式的客觀、普遍的洞察，不管是消費(fèi)者的支出規(guī)律、犯罪或恐怖主義行動(dòng)、健康習(xí)慣，還是雇員的生產(chǎn)效率。但是許多大數(shù)據(jù)的傳道者不愿正視其不足。數(shù)字無法自己說話，而數(shù)據(jù)集——不管它們具有什么樣的規(guī)模——仍然是人類設(shè)計(jì)的產(chǎn)物。

大數(shù)據(jù)的工具——例如ApacheHadoop軟件框架——并不能使人們擺脫曲解、隔閡和錯(cuò)誤的成見。當(dāng)大數(shù)據(jù)試圖反映人們所生活的社會(huì)化世界時(shí)，這些因素變得尤其重要，而人們卻常常會(huì)傻乎乎地認(rèn)為這些結(jié)果總是要比人為的意見來得客觀些。偏見和盲區(qū)存在于大數(shù)據(jù)中，就像它們存在于個(gè)人的感覺和經(jīng)驗(yàn)中一樣。不過存在一種值得懷疑的信條，即認(rèn)為數(shù)據(jù)總是越大越好，而相關(guān)性也等同于因果關(guān)系。

例如，社交媒體是大數(shù)據(jù)分析的一個(gè)普遍的信息源，那里無疑有許多信息可以挖掘。人們被告知，推特網(wǎng)的數(shù)據(jù)顯示人們在離家越遠(yuǎn)的時(shí)候越快樂，而且在周四晚上最為沮喪。但是存在許多理由對這些數(shù)據(jù)的含義提出質(zhì)疑。

首先，人們從皮尤研究中心獲悉，美國上網(wǎng)的成年人中只有16%使用推特網(wǎng)，因而他們絕對不是一個(gè)具有代表性的樣本——與整體人口相比，他們中年輕人和城市人的比例偏多。

此外，人們知道許多推特賬號是被稱作“機(jī)器人”程序的自動(dòng)程序、虛假賬號或是“半機(jī)器人”系統(tǒng)（即得到機(jī)器人程序輔助的人為控制賬號）。最近的估計(jì)顯示，可能存在多達(dá)2000萬個(gè)虛假賬號。因此就算人們想要踏入有關(guān)如何評估推特網(wǎng)用戶情緒的方法論雷場之前，請先問一下這些情緒究竟是來自真人，還是來自自動(dòng)化算法系統(tǒng)。

“大數(shù)據(jù)將使我們的城市變得更加智能和高效?！痹谝欢ǔ潭壬鲜堑摹?/span>

大數(shù)據(jù)可以提供幫助改善城市的寶貴見識，但是它對人們的幫助僅此而已。因?yàn)閿?shù)據(jù)在生成或采集的過程并不都是平等的，大數(shù)據(jù)集存在“信號問題”——即某些民眾和社區(qū)被忽略或未得到充分代表，這被稱為數(shù)據(jù)黑暗地帶或陰影區(qū)域。因此大數(shù)據(jù)在城市規(guī)劃中的應(yīng)用在很大程度上取決于市政官員對數(shù)據(jù)及其局限性的了解。

例如，波士頓的StreetBump應(yīng)用程序是一個(gè)比較聰明的以低成本收集信息的途徑。該程序從開車經(jīng)過路面坑洼處的駕駛員的智能手機(jī)上收集數(shù)據(jù)。更多類似的應(yīng)用正在出現(xiàn)。但是如果城市開始依靠僅來自智能手機(jī)用戶的信息，那么這些市民只是一個(gè)自我選擇樣本——它必然導(dǎo)致?lián)碛休^少智能手機(jī)用戶的社區(qū)的數(shù)據(jù)缺失，這樣的社區(qū)人群通常包括了年老和不那么富有的市民。

盡管波士頓的新城市機(jī)械辦公室作出了多項(xiàng)努力來彌補(bǔ)這些潛在的數(shù)據(jù)缺陷，但不那么負(fù)責(zé)的公共官員可能會(huì)遺漏這些補(bǔ)救措施，最終會(huì)得到不均衡的數(shù)據(jù)，從而進(jìn)一步加劇已有的社會(huì)不公。人們只要回顧一下曾經(jīng)過高估計(jì)了年度流感發(fā)病率的2012年“谷歌流感趨勢”，就可以認(rèn)識到依賴有缺陷的大數(shù)據(jù)可能給公共服務(wù)及公共政策造成的影響。

在網(wǎng)上公開政府部門數(shù)據(jù)的“開放政府”計(jì)劃——如Data.gov網(wǎng)站及“白宮開放政府計(jì)劃”——也存在同樣的情況。更多的數(shù)據(jù)未必會(huì)改善政府的任何功能，包括透明度和問責(zé)，除非存在可以使公眾和公共機(jī)構(gòu)保持接觸的機(jī)制，更不用說促進(jìn)政府解釋數(shù)據(jù)并以足夠的資源作出反應(yīng)的能力。所有這些都非易事。事實(shí)上，人們身邊還沒有很多技能高超的數(shù)據(jù)科學(xué)家。各大學(xué)目前正在爭相定義這一行當(dāng)、制訂教程和滿足市場需求。

“大數(shù)據(jù)對不同的社會(huì)群體不會(huì)厚此薄彼?！睅缀醪皇沁@樣。

對大數(shù)據(jù)所號稱的客觀性的另一個(gè)期待是對于少數(shù)群體的歧視將會(huì)減少，因?yàn)樵紨?shù)據(jù)總是不含社會(huì)偏見的，這使得分析可以在大規(guī)模的水平上進(jìn)行，從而避免基于群體的歧視。然而，由于大數(shù)據(jù)能夠作出有關(guān)群體不同行為方式的論斷，它們的使用通常恰恰就是為了實(shí)現(xiàn)這個(gè)目的——即把不同的個(gè)體歸入不同的群體中。例如，最近有一篇論文指科學(xué)家聽任自己的種族偏見影響有關(guān)基因組的大數(shù)據(jù)研究。

大數(shù)據(jù)有可能被用來搞價(jià)格歧視，從而引發(fā)嚴(yán)重的民權(quán)擔(dān)憂。這種做法在歷史上曾被稱為“劃紅線”。最近，劍橋大學(xué)對臉譜網(wǎng)5.8萬個(gè)“喜歡”標(biāo)注進(jìn)行的大數(shù)據(jù)研究被用來預(yù)測用戶極其敏感的個(gè)人信息，如性取向、種族、宗教和政治觀點(diǎn)、性格特征、智力水平、快樂與否、成癮藥物使用、父母婚姻狀況、年齡及性別等。

記者湯姆福爾姆斯基這樣評價(jià)該項(xiàng)研究：“此類容易獲得的高度敏感信息可能會(huì)被雇主、房東、政府部門、教育機(jī)構(gòu)及私營組織用來對個(gè)人實(shí)施歧視和懲罰。而人們沒有任何抗?fàn)幍氖侄巍！?/span>

最后考慮一下在執(zhí)法方面的影響。從華盛頓到特拉華州的紐卡斯?fàn)柨h，警方正在求助于大數(shù)據(jù)的“預(yù)測性警事”模型，希望能夠?yàn)閼野傅膫善铺峁┚€索，甚至可以幫助預(yù)防未來的犯罪。

不過，讓警方把工作專注于大數(shù)據(jù)所發(fā)現(xiàn)的特定“熱點(diǎn)”，存在著強(qiáng)化警方對聲譽(yù)不佳的社會(huì)群體的懷疑以及使差別化執(zhí)法成為制度的危險(xiǎn)。正如某位警察局長撰文指出的，盡管預(yù)測性警事算法系統(tǒng)不考慮種族和性別等因素，但是如果沒有對差別化影響的考慮，使用這種系統(tǒng)的實(shí)際結(jié)果可能“會(huì)導(dǎo)致警方與社區(qū)關(guān)系惡化，讓公眾產(chǎn)生司法程序缺失的感覺，引發(fā)種族歧視指控，并使警方的合法性受到威脅?！?/span>

“大數(shù)據(jù)是匿名的，因此它不會(huì)侵犯我們的隱私?！贝箦e(cuò)特錯(cuò)。

盡管許多大數(shù)據(jù)的提供者盡力消除以人類為對象的數(shù)據(jù)集中的個(gè)體身份，但身份重新被確認(rèn)的風(fēng)險(xiǎn)仍然很大。蜂窩電話數(shù)據(jù)看起來也許相當(dāng)匿名，但是最近對歐洲150萬手機(jī)用戶的數(shù)據(jù)集進(jìn)行的研究表明，只需要4項(xiàng)參照因素就足以挨個(gè)確認(rèn)其中95%的人員的身份。研究人員指出，人們在城市中走過的路徑存在唯一性，而鑒于利用大量公共數(shù)據(jù)集可以推斷很多信息，這使個(gè)人隱私成為“日益嚴(yán)重的擔(dān)憂”。

但是大數(shù)據(jù)的隱私問題遠(yuǎn)遠(yuǎn)超出了常規(guī)的身份確認(rèn)風(fēng)險(xiǎn)的范疇。目前被出售給分析公司的醫(yī)療數(shù)據(jù)有可能被用來追查到個(gè)人的身份。關(guān)于個(gè)性化醫(yī)療有很多談?wù)?，人們的希望是將來可以針對個(gè)人研制藥物和其他療法，就好像這些藥物和療法是利用患者自己的DNA制作出來的。

就提高醫(yī)學(xué)的功效而言，這是個(gè)美妙的前景，但這本質(zhì)上依賴于分子和基因水平上的個(gè)人身份確認(rèn)，這種信息一旦被不當(dāng)使用或泄露就會(huì)帶來很大的風(fēng)險(xiǎn)。盡管像RunKeeper和Nike+等個(gè)人健康數(shù)據(jù)收集應(yīng)用得到了迅速發(fā)展，但在實(shí)踐中用大數(shù)據(jù)改善醫(yī)療服務(wù)仍然還只是一種愿望，而不是現(xiàn)實(shí)。

高度個(gè)人化的大數(shù)據(jù)集將成為黑客或泄露者覬覦的主要目標(biāo)。維基揭密網(wǎng)一直處在近年幾起最嚴(yán)重的大數(shù)據(jù)泄密事件的中心。正如從英國離岸金融業(yè)大規(guī)模數(shù)據(jù)泄露事件中看到的，與其他所有人一樣，世界上最富有的1%人口的個(gè)人信息也極易遭到公開。

“大數(shù)據(jù)是科學(xué)的未來?！辈糠终_，但它還需要一些成長。

大數(shù)據(jù)為科學(xué)提供了新的途徑。人們只需看一下希格斯玻色子的發(fā)現(xiàn)，它是歷史上最大規(guī)模網(wǎng)格計(jì)算項(xiàng)目的產(chǎn)物。在該項(xiàng)目中，歐洲核子研究中心利用Hadoop分布式文件系統(tǒng)對所有數(shù)據(jù)進(jìn)行管理。但是除非人們認(rèn)識到并著手解決大數(shù)據(jù)在反映人類生活方面的某些內(nèi)在不足，否則可能會(huì)依據(jù)錯(cuò)誤的成見作出重大的公共政策和商業(yè)決定。

為了解決這個(gè)問題，數(shù)據(jù)科學(xué)家正在開始與社會(huì)科學(xué)家協(xié)作。隨著時(shí)間的推移，這將意味著找到把大數(shù)據(jù)策略和小數(shù)據(jù)研究相結(jié)合的新途徑。這將遠(yuǎn)遠(yuǎn)超越廣告業(yè)或市場營銷業(yè)采用的做法，如中心小組或A/B測試（即向用戶展示兩個(gè)版本的設(shè)計(jì)或結(jié)果，以確定哪一個(gè)版本的效果更好）。確切地說，新的混合式方法將會(huì)詢問人們做某些事情的原因，而不只是統(tǒng)計(jì)某件事情發(fā)生的頻率。這意味著在信息檢索和機(jī)器學(xué)習(xí)之外，還將利用社會(huì)學(xué)分析和關(guān)于人種學(xué)的深刻認(rèn)識。

技術(shù)企業(yè)很早就意識到社會(huì)科學(xué)家可以幫助它們更加深刻地認(rèn)識人們與其產(chǎn)品發(fā)生關(guān)系的方式和原因，如施樂公司研究中心就曾聘請了具有開拓精神的人類學(xué)家露西薩奇曼。下一階段將是進(jìn)一步豐富計(jì)算機(jī)科學(xué)家、統(tǒng)計(jì)學(xué)家及眾多門類的社會(huì)科學(xué)家之間的協(xié)作——不僅是為了檢驗(yàn)各自的研究成果，而且還要以更加嚴(yán)格的態(tài)度提出截然不同的各類問題。

考慮到每天有大量關(guān)于人們的信息——包括臉譜網(wǎng)點(diǎn)擊情況、全球定位系統(tǒng)（GPS）數(shù)據(jù)、醫(yī)療處方和Netflix預(yù)訂隊(duì)列——被收集起來，人們遲早要決定把這樣的信息托付給什么人，以及用它們來實(shí)現(xiàn)什么樣的目的。人們無法回避這樣的事實(shí)，即數(shù)據(jù)絕不是中立的，它很難保持匿名。但是人們可以利用跨越不同領(lǐng)域的專業(yè)知識，從而更好地辨別偏見、缺陷和成見，正視隱私和公正將面臨的新挑戰(zhàn)。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點(diǎn)擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點(diǎn)擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點(diǎn)擊>>> “CDA含金量” 了解CDA考試詳情；

大數(shù)據(jù) Hadoop 特征機(jī)器學(xué)習(xí) 數(shù)據(jù)分析

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇圖論在大數(shù)據(jù)分析中的作用！

下一篇CDA認(rèn)證再升一檔！與國家共同推進(jìn)大數(shù)據(jù)人才培養(yǎng)標(biāo)準(zhǔn)教育事業(yè)！

CDA報(bào)考指南

報(bào)考流程
考試時(shí)間
報(bào)名費(fèi)用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

免密碼登錄

提交首次登錄驗(yàn)證后自動(dòng)注冊

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

大數(shù)據(jù)對不同的社會(huì)群體不會(huì)厚此薄彼

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】訓(xùn)練與驗(yàn)證損失驟升：機(jī)器學(xué)習(xí)訓(xùn)練中的 ...

【CDA干貨】解析 DataHub 與 Kafka：數(shù)據(jù)生態(tài)中兩類 ...

CDA 數(shù)據(jù)分析師：讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層 ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

大數(shù)據(jù)對不同的社會(huì)群體不會(huì)厚此薄彼

數(shù)據(jù)分析師考試動(dòng)態(tài)

CDA報(bào)考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】訓(xùn)練與驗(yàn)證損失驟升：機(jī)器學(xué)習(xí)訓(xùn)練中的 ...

【CDA干貨】解析 DataHub 與 Kafka：數(shù)據(jù)生態(tài)中兩類 ...

CDA 數(shù)據(jù)分析師：讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層 ...

CDA 數(shù)據(jù)分析師：表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用 ...

【CDA干貨】SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換 ...

【CDA干貨】MySQL 大表拆分與關(guān)聯(lián)查詢效率：打破 “ ...

【CDA干貨】DSGE 模型中的 Et：理性預(yù)期算子的內(nèi)涵 ...

【CDA干貨】Python 提取 TIF 中地名的完整指南 ...

CDA 數(shù)據(jù)分析師：解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 ...

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...

CDA 數(shù)據(jù)分析師：掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè) ...

【CDA干貨】MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解 ...

【CDA干貨】解析 Python 中 Response 對象的 text ...

CDA 數(shù)據(jù)分析師：激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 ...

【CDA干貨】Python HTTP 請求工具對比：urllib.requ ...

【CDA干貨】解決 pd.read\_csv 讀取長浮點(diǎn)數(shù)據(jù)的科 ...

CDA 數(shù)據(jù)分析師：業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu) ...

【CDA干貨】用 SQL 驗(yàn)證業(yè)務(wù)邏輯：從規(guī)則拆解到數(shù)據(jù) ...

【CDA干貨】塔吉特百貨孕婦營銷案例：數(shù)據(jù)驅(qū)動(dòng)下的 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

【CDA干貨】Excel 導(dǎo)入數(shù)據(jù)含缺失值？詳解 dropna ...

【CDA干貨】深入解析卡方檢驗(yàn)與 t 檢驗(yàn)：差異、適用 ...