
大數(shù)據(jù)到底怎么影響我們的生活
信息大爆炸的今天,不討論大數(shù)據(jù)這個話題似乎就是跟不上時代。從醫(yī)藥到教育,再到其他各個領(lǐng)域,大數(shù)據(jù)充斥著現(xiàn)代社會的每個角落。而我們最關(guān)心的還是大數(shù)據(jù)最終將以什么樣的形式,怎么樣影響甚至改變我們的生活。來聽聽四位專家告訴你大數(shù)據(jù)到底有多少可能。
丹·瓦格納 Dan Wagner
Civis Analytics 的創(chuàng)始人兼首席執(zhí)行官
你曾經(jīng)說過,希望用大數(shù)據(jù)解決全球最大的問題。你最想解決的問題是什么?
我們主要關(guān)注兩個領(lǐng)域:教育和健康。在教育領(lǐng)域,我們專注于利用個人層面的數(shù)據(jù),幫助客戶發(fā)現(xiàn)那些申請和注冊的大學(xué)低于其潛能的低收入學(xué)生,并幫助這些機構(gòu)找到適當?shù)姆椒ǎ屵@些孩子進入與其潛能相匹配的大學(xué)。
保險投保也是我們的目標之一,尤其是在《平價醫(yī)保法案》剛開始施行的頭幾個月。我們主要致力于與多家機構(gòu)合作,幫助它們找到?jīng)]有醫(yī)療保險的民眾,并讓他們加入到醫(yī)保計劃中來。這是一項非常艱巨的工作,因為沒有現(xiàn)成的無保險人員名冊。你只能通過統(tǒng)計推斷來完成這項工作。
最值得關(guān)注的問題之一是,保險如何從團體保險向個人保險發(fā)展,以及保險公司如何學(xué)會管理這一風(fēng)險。我們正同幾家機構(gòu)合作,利用數(shù)據(jù)提前發(fā)現(xiàn)諸如心血管疾病等個體風(fēng)險,提前了解病人面臨的風(fēng)險。
一旦發(fā)現(xiàn)有風(fēng)險,你會增加投保人的保費嗎?
你不能這么做。你只能根據(jù)諸如年齡等一系列精簡變量來確定保單價值。因此,你不能根據(jù)上述風(fēng)險來定價,但你需要管理這一風(fēng)險。
你同奧巴馬競選團隊合作時,大數(shù)據(jù)發(fā)揮了怎樣的作用?
我們帶來的最顯著改變是在媒體方面。具體來說,就是利用尼爾森收視率來追蹤競選廣告的投放和效果。透過收視率數(shù)據(jù),你就好像看到了一張人口統(tǒng)計表,能從中了解到觀眾群的構(gòu)成,例如是西班牙裔,還是女性。
我的做法是,根據(jù)我們計算得出的個人可說服得分來定義我們的觀眾。我們將這些數(shù)據(jù)與機頂盒數(shù)據(jù)相匹配。由此就能找到每一美元廣告投放能帶來最高可說服觀眾密度的電視欄目。有了這些數(shù)據(jù),我們基本就能根據(jù)一個單一的標準來決定廣告投放的優(yōu)先順序。這與人口統(tǒng)計學(xué)沒有任何關(guān)系。只需明確哪些是我們在個人層面上確定的、要特別針對的觀眾群。這是一項非常艱巨的工作,但從文化角度來看,這種方法很適合我們的競選團隊,因為,奧巴馬競選的典型特征是,選民搖擺不定。
我們應(yīng)當如何解決數(shù)據(jù)分析中的安全問題?
你必須非常重視這個問題。很多這類機構(gòu)在收集信息,但我認為,其中很多機構(gòu)都沒有意識到什么是最高標準的數(shù)據(jù)安全操作。我們的很多工作都是在亞馬遜云服務(wù)平臺上完成的,這比你內(nèi)部可能開發(fā)的東西要好得多,因為你可以利用亞馬遜提供的很多網(wǎng)絡(luò)協(xié)議。亞馬遜的云計算服務(wù)算是該領(lǐng)域最好的。
大數(shù)據(jù)熱潮中,我們可能犯的最大錯誤,或可能忽視的最重要問題是什么?
大數(shù)據(jù)熱潮最令人遺憾的一點是,人們只考慮其過程,而沒有考慮結(jié)果。有些時候,這股熱潮有些盲目,在某種意義上,它只是將對數(shù)據(jù)計算能力增長的信念孤立地看作是一種解決問題的手段。你將如何運用這些未來真的能改善人們生活的數(shù)據(jù)?這是個大問題。
在日常生活中,你是如何應(yīng)對信息過載問題的?
作為一個在互聯(lián)網(wǎng)相關(guān)公司工作的人,我有很多時間是在網(wǎng)上。但我盡量縮短通過各類電子設(shè)備進行溝通的時間,并努力確保自己閱讀大量書籍。
埃里克·謝德特 Eric Schadt
伊坎基因組織學(xué)和多尺度生物學(xué)研究所(Icahn Institute for Genomics and Multiscale Biology)董事
如何證明超級計算在醫(yī)學(xué)研究中能發(fā)揮重要作用?
主要通過兩種途徑。一是管理當下醫(yī)學(xué)領(lǐng)域產(chǎn)生的諸如 DNA 測序等海量數(shù)據(jù)。舉例來說,一位癌癥病人的全基因組序列會產(chǎn)生萬億字節(jié)之多的數(shù)據(jù)。想象一下,如果要為數(shù)十萬人做基因測序,就會產(chǎn)生千萬億,甚至百億億字節(jié)量級的數(shù)據(jù)。要對這些數(shù)據(jù)進行管理并加以處理,使之轉(zhuǎn)化為能被醫(yī)界人員所用的信息,就需要超級計算設(shè)備和相關(guān)的專業(yè)知識。
另一個途徑是,利用需要超級計算在短時間內(nèi)完成的非常復(fù)雜的數(shù)學(xué)算法,根據(jù)已經(jīng)存在的疾病亞型,以及治療該疾病亞型可能的最佳方法建立一個疾病預(yù)測模型。
這使醫(yī)生在治療中的作用以及病人與醫(yī)生間的數(shù)據(jù)關(guān)系發(fā)生了怎樣的變化?
發(fā)生了根本性的變化。與我們現(xiàn)有方法的不同之處在于,我們更深入地研究個體,而非一個群體。就拿糖尿病來說,目前可能有 100 種不同的糖尿病亞型,而且你和你的鄰居得這種病的原因也各不相同。你可能是因胰腺β細胞功能受損所致;或者你肌肉中的攝取受體不能有效地吸收葡萄糖等等。不同的病因可能需要不同的治療方法。
醫(yī)生看到的只是晚期癥狀,但現(xiàn)在透過各類分辨率更高的科技產(chǎn)品他們能看到導(dǎo)致下游結(jié)果的上游病因。最近醫(yī)生們才看到了這些病因。其中涉及數(shù)百萬個變量,這是人腦無法理解的。
您剛才說到的都是數(shù)學(xué)幫助克服人腦缺陷的方面,這些數(shù)學(xué)計算程序有哪些缺陷需要人腦的幫助?
我們所做的工作是用一種需要人腦參與的方式來呈現(xiàn)信息,這是一種很棒的模式識別機器。目前在很大程度上人與機器是合作伙伴關(guān)系。也許 10 年、20 年以后,諸如 Watson 等計算機將變得非常強大,人的干預(yù)會大大降低。但目前還做不到。
很多組織收集的醫(yī)學(xué)數(shù)據(jù)只供己用,我們應(yīng)該對此感到擔(dān)憂嗎?
如果我們真的希望對人類健康產(chǎn)生影響,這些數(shù)據(jù)和模型必須對所有人進行開放。
物理研究領(lǐng)域就有這樣的先例,強子對撞機試驗的全部數(shù)據(jù)都是對公眾開放的。當然,存在如何保護個人隱私的問題。
可以通過技術(shù)解決隱私保護問題嗎?
我們當然可以保護并存儲數(shù)據(jù),保護計算機環(huán)境的安全,并采取眾多安全協(xié)議來確保數(shù)據(jù)不會陷入危險。但有一點我們很清楚,任何形式的高維數(shù)據(jù)都無法真正做到匿名。就像照片一樣。你不能指望你的外貌也有隱私,因為人人都能看到你的臉,你不能將它藏起來。我認為 DNA 以及諸如分子尺寸等其他數(shù)據(jù)最終也將歸入同樣的范疇,原因很簡單,當技術(shù)足夠成熟的時候,基因測序會像照相一樣簡單、便宜。
在日常生活中,你是如何應(yīng)對信息過載問題的?
不能陷在大數(shù)據(jù)中。我會去玩單板滑雪、騎摩托車,或是做一些能幫助你放松,無需太動腦筋的活動。
安德烈斯·維根 Andreas Weigend
獨立顧問,亞馬遜公司前任首席科學(xué)家
你曾經(jīng)將大數(shù)據(jù)比作原油。
如果你在后院發(fā)現(xiàn)了原油,你的這個發(fā)現(xiàn)可能用處不大,因為你需要將原油精煉后才能供人們使用。原始數(shù)據(jù)也像原油一樣,不是拿來就可使用。亞馬遜和谷歌就是從事數(shù)據(jù)精煉提取的公司。當然,據(jù)我所知,原油和數(shù)據(jù)兩者之間最大的區(qū)別是,數(shù)據(jù)一時半會兒不會被用光。而至于價格,信息產(chǎn)品和石油產(chǎn)品之間的關(guān)系也非常有意思。
原油的大部分好處被你所描述的精煉公司而不是被其用戶獲得。我們怎樣才能保證每個人都能從大數(shù)據(jù)中獲益?
我認為,在蘋果公司的應(yīng)用商店發(fā)生的一切將會在數(shù)據(jù)經(jīng)濟領(lǐng)域再次上演,會有公司以這些數(shù)據(jù)為“原材料”推出服務(wù)。如果成立一個應(yīng)用商店,而另一家公司使用數(shù)據(jù)向消費者提供應(yīng)用并與數(shù)據(jù)公司共享收入,價值由此產(chǎn)生。
大約 10 年前,你曾擔(dān)任亞馬遜首席科學(xué)家。目前,世界是否已經(jīng)完全變樣了?
10 年前,我們已經(jīng)注意到行業(yè)的重點正由算法(意味著你可以從自己所有的數(shù)據(jù)中獲得任何東西)向僅僅需要獲得更多的原始數(shù)據(jù)這一方向轉(zhuǎn)移。所以說,現(xiàn)在的情況與當年完全不同,不過,我們?nèi)匀挥蓄愃频南敕āX愃魉惯€是貝索斯。
你認為哪些行業(yè)守著最豐富的數(shù)據(jù)金礦卻未找到利用金礦創(chuàng)造價值的方法?
中國有一家公司名叫騰訊,他們推出的微信完全顛覆了中國人的溝通方式。與之相對應(yīng)的另一家公司是中國電商公司阿里巴巴,該公司了解客戶對哪些商品感興趣,他們在搜索什么商品,以及他們最終買了哪些商品。阿里還清楚客戶是否退貨和有無付款問題等。
這兩家公司均擁有 10 億客戶。它們了解客戶的所有溝通習(xí)慣或所有財務(wù)交易情況,所以,它們確實大有可為。當然,這也取決于你對哪些行業(yè)感興趣。不過,真正的潛力是這兩方面數(shù)據(jù)的交叉整合。比如,在需要做出信貸決定時,你可以從騰訊了解很多信息。因為,了解到你是否曾經(jīng)和妓女鬼混或與拉皮條的家伙有過來往,也能多多少少地了解你將來償還貸款的傾向。
在日常生活中,你是如何應(yīng)對信息過載這一問題的?
我們必須形成一個認知習(xí)慣,認識到人們是會錯過一些信息的。如果有人錯過了你的一封電子郵件,請不要生氣。請通過另一個渠道與他們聯(lián)絡(luò)。
威廉·庫科爾斯基 William Cukierski
Kaggle 公司的數(shù)據(jù)科學(xué)家
效果最好的競賽有哪些?
我最看好的一場競賽叫“找鯨大賽”。競賽中要尋找的鯨是生活在大西洋中的一種瀕危種群。這些搜尋者擁有強大的網(wǎng)絡(luò),不間斷地記錄鯨發(fā)出的聲音,他們也擁有自己的算法,且效果非常好。他們說:“要不我們把這些數(shù)據(jù)交給 Kaggle,看 Kaggle 有沒有更好的解決方案。”他們最后實現(xiàn)了非凡的成果。目前,這些強大的網(wǎng)絡(luò)能夠以接近 99% 的準確率來偵測出鯨的聲音。我認為,如果有人坐在紐約的辦公桌前就可以從事與日常工作毫無相干且在萬里之遙的一項工作,并為我們的日常生活帶來巨大好處,這將是一項多么了不起的事情!
你們還在設(shè)法利用數(shù)據(jù)分析來進行癌癥研究。Kaggle 是否組織過很多醫(yī)療相關(guān)領(lǐng)域的競賽?
Kaggle 尚未在醫(yī)療領(lǐng)域涉足過多,主要原因是涉及泄露患者信息這個問題。另一個難題是擁有這些數(shù)據(jù)的個人和機構(gòu)把數(shù)據(jù)囤積了起來,不愿分享。
制藥公司擁有制藥試驗的數(shù)據(jù),它們把這些數(shù)據(jù)壓在了箱底。人們?yōu)榱藬?shù)據(jù)分享作了一些初步努力,也承諾在這方面展開合作,但結(jié)果還是各自都想保留自己手中的數(shù)據(jù)。從某種程度上說,主要還是擔(dān)心隱私保護問題。你可能不會愿意把別人的基因組公開發(fā)布,然后大家都看出來這是家住主干道 232 號的薩利·斯密斯(Sally Smith)的基因組。不過,與此同時,這些擔(dān)心也有些過度。對于這種問題,人們好像都在玩花招,說什么除非把數(shù)據(jù)直接交給你,不然你怎么能夠遠距離地利用數(shù)據(jù)解決問題呢?如果能消除這些顧慮,你就可以取得一些實質(zhì)性的進展。
你們公司在舉辦人人都可以參與的競賽,而有些占有數(shù)據(jù)的機構(gòu)卻牢牢抓著數(shù)據(jù)不放手。這是否是一個矛盾?
我在日常工作中面臨的最大挑戰(zhàn)之一是說服人們分享數(shù)據(jù),并令其確信這么做不會威脅到其機構(gòu)的生存。
經(jīng)常情況下,不是說你占有了數(shù)據(jù),數(shù)據(jù)就成為與生俱來的無價之寶,數(shù)據(jù)是需要挖掘和分析的。如果我們從一個機構(gòu)拿到了一組數(shù)據(jù),并將其公開,問題的解決方式是公開的,這不會產(chǎn)生什么問題,因為沒有其他人有相同的數(shù)據(jù),也沒有人會再去獲得并利用這些數(shù)據(jù)。
你認為,關(guān)于大數(shù)據(jù)的各種說法和觀點,哪方面的失控最嚴重?
我必須糾正一下你的問題,應(yīng)該是哪些方面沒有失控。在與人們談?wù)?a target="_blank" href="http://www.3lll3.cn/kecheng/2.html">大數(shù)據(jù)時,很難避免失控這個問題,也很難避免其老板的介入,同樣難以獲得老板支持地說“好吧,我們也做大數(shù)據(jù)吧”。我認為,人們在數(shù)據(jù)量方面有些失控。所以,經(jīng)常有人會說,“我們有 10 億兆的數(shù)據(jù),我們有百萬兆的數(shù)據(jù)。”許多問題可以在更小的數(shù)據(jù)規(guī)模上得到解決。比如,用輸送帶來篩選利馬豆。銷售利馬豆的公司希望利用照相機來發(fā)現(xiàn)輸送帶上變質(zhì)的利馬豆。你可以想象,如果你能夠發(fā)現(xiàn)一粒棕色利馬豆,你就可以發(fā)現(xiàn)所有的棕色利馬豆,而不需天文級別的數(shù)據(jù)來解決這一問題。我認為,95% 的問題適用于這個模型。剩余 5% 的問題的算法需要大量的數(shù)據(jù),提供的數(shù)據(jù)越多,其方案的效果就越好。Netflix 向用戶推薦電影就是最好的例證。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-18剛?cè)肼殘龌蚴窃诼殘稣媾R崗位替代、技能更新、人機協(xié)作等焦慮的打工人,想要找到一條破解職場焦慮和升職瓶頸的系統(tǒng)化學(xué)習(xí)提升 ...
2025-07-182025被稱為“AI元年”,而AI,與數(shù)據(jù)密不可分。網(wǎng)易公司創(chuàng)始人丁磊在《AI思維:從數(shù)據(jù)中創(chuàng)造價值的煉金術(shù) ...
2025-07-18CDA 數(shù)據(jù)分析師:數(shù)據(jù)時代的價值挖掘者 在大數(shù)據(jù)席卷全球的今天,數(shù)據(jù)已成為企業(yè)核心競爭力的重要組成部分。從海量數(shù)據(jù)中提取有 ...
2025-07-18SPSS 賦值后數(shù)據(jù)不顯示?原因排查與解決指南? 在 SPSS( Statistical Package for the Social Sciences)數(shù)據(jù)分析過程中,變量 ...
2025-07-18在 DBeaver 中利用 MySQL 實現(xiàn)表數(shù)據(jù)同步操作指南? ? 在數(shù)據(jù)庫管理工作中,將一張表的數(shù)據(jù)同步到另一張表是常見需求,這有助于 ...
2025-07-18數(shù)據(jù)分析師的技能圖譜:從數(shù)據(jù)到價值的橋梁? 在數(shù)據(jù)驅(qū)動決策的時代,數(shù)據(jù)分析師如同 “數(shù)據(jù)翻譯官”,將冰冷的數(shù)字轉(zhuǎn)化為清晰的 ...
2025-07-17Pandas 寫入指定行數(shù)據(jù):數(shù)據(jù)精細化管理的核心技能? 在數(shù)據(jù)處理的日常工作中,我們常常需要面對這樣的場景:在龐大的數(shù)據(jù)集里精 ...
2025-07-17解碼 CDA:數(shù)據(jù)時代的通行證? 在數(shù)字化浪潮席卷全球的今天,當企業(yè)決策者盯著屏幕上跳動的數(shù)據(jù)曲線尋找增長密碼,當科研人員在 ...
2025-07-17CDA 精益業(yè)務(wù)數(shù)據(jù)分析:數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的實戰(zhàn)方法論 在企業(yè)數(shù)字化轉(zhuǎn)型的浪潮中,“數(shù)據(jù)分析” 已從 “加分項” 成為 “必修課 ...
2025-07-16MySQL 中 ADD KEY 與 ADD INDEX 詳解:用法、差異與優(yōu)化實踐 在 MySQL 數(shù)據(jù)庫表結(jié)構(gòu)設(shè)計中,索引是提升查詢性能的核心手段。無論 ...
2025-07-16解析 MySQL Update 語句中 “query end” 狀態(tài):含義、成因與優(yōu)化指南? 在 MySQL 數(shù)據(jù)庫的日常運維與開發(fā)中,開發(fā)者和 DBA 常會 ...
2025-07-16如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價值、驅(qū)動決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟時代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動的時代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯改字段或誤執(zhí)行批量更新等問題時有發(fā)生。 ...
2025-07-14t檢驗與Wilcoxon檢驗的選擇:何時用t.test,何時用wilcox.test? t 檢驗與 Wilcoxon 檢驗的選擇:何時用 t.test,何時用 wilcox. ...
2025-07-14AI 浪潮下的生存與進階: CDA數(shù)據(jù)分析師—開啟新時代職業(yè)生涯的鑰匙(深度研究報告、發(fā)展指導(dǎo)白皮書) 發(fā)布機構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11