
三個(gè)案例透析大數(shù)據(jù)思維的核心
邏輯推理能力是人類特有的本領(lǐng),給出原因,我們能夠通過邏輯推理得到結(jié)果。在過去,我們一直非常強(qiáng)調(diào)因果關(guān)系,一方面是因?yàn)槲覀兂3J窍扔性?,再有結(jié)果,另一方面是因?yàn)槿绻覀冋也怀鲈颍3?huì)覺得結(jié)果不是非??尚拧6髷?shù)據(jù)時(shí)代,大數(shù)據(jù)思維要求我們從探求因果聯(lián)系到探索強(qiáng)相關(guān)關(guān)系。
以下三個(gè)案例分別來自藥品研發(fā)、司法判決與廣告投放,從三個(gè)不同的角度了解大數(shù)據(jù)思維的核心。
大數(shù)據(jù)與藥品研發(fā):尋找特效藥的方法
比如在過去,現(xiàn)代醫(yī)學(xué)里新藥的研制,就是典型的利用因果關(guān)系解決問題的例子。
青霉素的發(fā)明過程就非常具有代表性。首先,在19世紀(jì)中期,奧匈帝國的塞麥爾維斯(Ignaz Philipp Semmelweis,1818—1865)a、法國的巴斯德等人發(fā)現(xiàn)微生物細(xì)菌會(huì)導(dǎo)致很多疾病,因此人們很容易想到殺死細(xì)菌就能治好疾病,這就是因果關(guān)系。不過,后來弗萊明等人發(fā)現(xiàn),把消毒劑涂抹在傷員傷口上并不管用,因此就要尋找能夠從人體內(nèi)殺菌的物質(zhì)。
最終在1928年弗萊明發(fā)現(xiàn)了青霉素,但是他不知道青霉素殺菌的原理。而牛津大學(xué)的科學(xué)家錢恩和亞伯拉罕搞清楚了青霉素中的一種物質(zhì)—青霉烷—能夠破壞細(xì)菌的細(xì)胞壁,才算搞清楚青霉素有效性的原因,到這時(shí)青霉素治療疾病的因果關(guān)系才算完全找到,這時(shí)已經(jīng)是1943年,離賽麥爾維斯發(fā)現(xiàn)細(xì)菌致病已經(jīng)過去近一個(gè)世紀(jì)。
兩年之后,女科學(xué)家多蘿西·霍奇金(Dorothy Hodgkin)搞清楚了青霉烷的分子結(jié)構(gòu),并因此獲得了諾貝爾獎(jiǎng),這樣到了1957年終于可以人工合成青霉素。當(dāng)然,搞清楚青霉烷的分子結(jié)構(gòu),有利于人類通過改進(jìn)它來發(fā)明新的抗生素,亞伯拉罕就因此而發(fā)明了頭孢類抗生素。
在整個(gè)青霉素和其他抗生素的發(fā)明過程中,人類就是不斷地分析原因,然后尋找答案(結(jié)果)。當(dāng)然,通過這種因果關(guān)系找到的答案非常讓人信服。
其他新藥的研制過程和青霉素很類似,科學(xué)家們通常需要分析疾病產(chǎn)生的原因,尋找能夠消除這些原因的物質(zhì),然后合成新藥。這是一個(gè)非常漫長的過程,而且費(fèi)用非常高。在七八年前,研制一種處方藥已經(jīng)需要花費(fèi)10年以上的時(shí)間,投入10億美元的科研經(jīng)費(fèi)。
如今,時(shí)間和費(fèi)用成本都進(jìn)一步提高;一些專家,比如斯坦福醫(yī)學(xué)院院長米納(Lloyd Minor)教授則估計(jì)需要20年的時(shí)間,20億美元的投入。這也就不奇怪為什么有效的新藥價(jià)格都非常昂貴,因?yàn)槿绻荒茉趯@行趦?nèi)a賺回20億美元的成本,就不可能有公司愿意投錢研制新藥了。
按照因果關(guān)系,研制一種新藥就需要如此長的時(shí)間、如此高的成本。這顯然不是患者可以等待和負(fù)擔(dān)的,也不是醫(yī)生、科學(xué)家、制藥公司想要的,但是過去沒有辦法,大家只能這么做。
如今,有了大數(shù)據(jù),尋找特效藥的方法就和過去有所不同了。美國一共只有5 000多種處方藥,人類會(huì)得的疾病大約有一萬種。如果將每一種藥和每一種疾病進(jìn)行配對(duì),就會(huì)發(fā)現(xiàn)一些意外的驚喜。比如斯坦福大學(xué)醫(yī)學(xué)院發(fā)現(xiàn),原來用于治療心臟病的某種藥物對(duì)治療某種胃病特別有效。
當(dāng)然,為了證實(shí)這一點(diǎn)需要做相應(yīng)的臨床試驗(yàn),但是這樣找到治療胃病的藥只需要花費(fèi)3年時(shí)間,成本也只有1億美元。這種方法,實(shí)際上依靠的并非因果關(guān)系,而是一種強(qiáng)關(guān)聯(lián)關(guān)系,即A藥對(duì)B病有效。至于為什么有效,接下來3年的研究工作實(shí)際上就是在反過來尋找原因。這種先有結(jié)果再反推原因的做法,和過去通過因果關(guān)系推導(dǎo)出結(jié)果的做法截然相反。無疑,這樣的做法會(huì)比較快,當(dāng)然,前提是有足夠多的數(shù)據(jù)支持。
大數(shù)據(jù)思維與司法:為香煙定罪
在過去,由于數(shù)據(jù)量有限,而且常常不是多維度的,這樣的相關(guān)性很難找得到,即使偶爾找到了,人們也未必接受,因?yàn)檫@和傳統(tǒng)的觀念不一樣。20世紀(jì)90年代中期,在美國和加拿大圍繞香煙是否對(duì)人體有害這件事情的一系列訴訟上,如何判定吸煙是否有害是這些案子的關(guān)鍵,是采用因果關(guān)系判定,還是采用相關(guān)性判定,決定了那些訴訟案判決結(jié)果。
在今天一般的人看來,吸煙對(duì)人體有害,這是板上釘釘?shù)氖聦?shí)。比如美國外科協(xié)會(huì)的一份研究報(bào)告顯示,吸煙男性肺癌的發(fā)病率是不吸煙男性的23倍,女性則是相應(yīng)的13倍a,這從統(tǒng)計(jì)學(xué)上講早已經(jīng)不是隨機(jī)事件的偶然性了,而是存在必然的聯(lián)系。但是,就是這樣看似如山的鐵證,依然“不足夠”以此判定煙草公司就是有罪,因?yàn)樗鼈冋J(rèn)為吸煙和肺癌沒有因果關(guān)系。
煙草公司可以找出很多理由來辯解,比如說一些人之所以要吸煙,是因?yàn)樯眢w里有某部分基因缺陷或者身體缺乏某種物質(zhì);而導(dǎo)致肺癌的,是這種基因缺陷或者某種物質(zhì)的缺乏,而非煙草中的某些物質(zhì)。從法律上講,煙草公司的解釋很站得住腳,美國的法律又是采用無罪推定原則a,因此,單純靠發(fā)病率高這一件事是無法判定煙草公司有罪的。
這就導(dǎo)致了在歷史上很長的時(shí)間里,美國各個(gè)州政府的檢察官在對(duì)煙草公司提起訴訟后,經(jīng)過很長時(shí)間的法庭調(diào)查和雙方的交鋒,最后結(jié)果都是不了了之。其根本原因是提起訴訟的原告一方(州檢察官和受害人)拿不出足夠充分的證據(jù),而煙草公司又有足夠的錢請(qǐng)到很好的律師為它們進(jìn)行辯護(hù)。
這種情況直到20世紀(jì)90年代中期美國歷史上的那次世紀(jì)大訴訟才得到改變。1994年,密西西比州的總檢察長麥克·摩爾(Michael Moore)又一次提起了對(duì)菲利普·莫里斯等煙草公司的集體訴訟,隨后,美國40多個(gè)州加入了這場有史以來最大的訴訟行動(dòng)。在訴訟開始以前,雙方都清楚官司的勝負(fù)其實(shí)取決于各州的檢察官們能否收集到讓人信服的證據(jù)來證明是吸煙而不是其他原因?qū)е铝撕芏嗉膊?比如肺癌)更高的發(fā)病率。
我們?cè)谇懊嬷v了,單純講吸煙者比不吸煙者肺癌的發(fā)病率高是沒有用的,因?yàn)榈梅伟┛赡苁怯善渌苯拥囊蛩匾鸬摹Rf明吸煙的危害,最好能找到吸煙和得病的因果關(guān)系,但是這件事情短時(shí)間內(nèi)又做不到。因此,訴訟方只能退而求其次,他們必須能夠提供在(煙草公司所說的)其他因素都被排除的情況下,吸煙者發(fā)病的比例依然比不吸煙者要高很多的證據(jù),這件事做起來遠(yuǎn)比想象的困難。
雖然當(dāng)時(shí)全世界的人口多達(dá)60億,吸煙者的人數(shù)也很多,得各種與吸煙有關(guān)疾病的人也不少,但是在以移民為主的美國,尤其是大城市里,人們彼此之間基因的差異相對(duì)較大,生活習(xí)慣和收入狀況也千差萬別,即使調(diào)查了大量吸煙和不吸煙的樣本,能夠進(jìn)行比對(duì)的、各方面條件都很相似的樣本并不多。不過在20世紀(jì)90年代的那次世紀(jì)大訴訟中,各州的檢察長下定決心要打贏官司,而不再是不了了之,為此他們聘請(qǐng)了包括約翰·霍普金斯大學(xué)在內(nèi)的很多大學(xué)的頂級(jí)專家作為訴訟方的顧問,其中既包括醫(yī)學(xué)家,也包括公共衛(wèi)生專家。
這些專家們?yōu)榱耸占C據(jù),派下面的工作人員到世界各地,尤其是第三世界國家的農(nóng)村地區(qū)(包括中國的西南地區(qū)),去收集對(duì)比數(shù)據(jù)。在這樣的地區(qū),由于族群相對(duì)單一(可以排除基因等先天的因素),收入和生活習(xí)慣相差較小(可以排除后天的因素),有可能找到足夠多的可對(duì)比的樣本,來說明吸煙的危害。
各州檢察官們和專家們經(jīng)過三年多的努力,最終讓煙草公司低頭了。1997年,煙草公司和各州達(dá)成和解,同意賠償3 655億美元。在這場歷史性勝利的背后,靠的并非是檢察官們找到了吸煙對(duì)人體有害的因果關(guān)系的證據(jù),而依然是采用了統(tǒng)計(jì)上強(qiáng)相關(guān)性的證據(jù),只是這一次的證據(jù)能夠讓陪審團(tuán)和法官信服。在這場馬拉松式的訴訟過程中,其實(shí)人們的思維方式已經(jīng)從接受因果關(guān)系,轉(zhuǎn)到接受強(qiáng)相關(guān)性上來了。
如果在法律上都能夠被作為證據(jù)接受,那么把相關(guān)性的結(jié)果應(yīng)用到其他領(lǐng)域更是順理成章的事情。
大數(shù)據(jù)思維與廣告:咖啡與信用卡廣告更配哦
2003年Google推出了根據(jù)網(wǎng)頁內(nèi)容安插廣告的AdSense服務(wù),以與那些在網(wǎng)頁中隨機(jī)投放廣告的產(chǎn)品競爭。根據(jù)我們的直覺,如果在一個(gè)和照相機(jī)有關(guān)的網(wǎng)站(或者)網(wǎng)頁中放上照相機(jī)的廣告,效果應(yīng)該最好。這其實(shí)就是用到了相關(guān)性的特點(diǎn),但是大部分時(shí)候,相關(guān)性并不是那么直接,不能一眼就看出來。根據(jù)大量數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,我們發(fā)現(xiàn)這樣一些廣告和內(nèi)容的搭配效果非常好,很多和我們的想象不大相同,比如:
在電影租賃和收看視頻的網(wǎng)站上,放上零食的廣告;
在女裝網(wǎng)站上,放男裝的廣告;
在咖啡評(píng)論和銷售網(wǎng)站上,放信用卡和房貸的廣告;
在工具(Hardware)評(píng)論網(wǎng)站上,放上快餐的廣告;
……
這些搭配,如果沒有大量的數(shù)據(jù)統(tǒng)計(jì)作為基礎(chǔ),一般人是想不到的。當(dāng)然,如果仔細(xì)分析有些看似不太相關(guān)的搭配,還是能夠找到合理的解釋,比如電影租賃和視頻播放網(wǎng)站與零食廣告的搭配,符合人在看視頻時(shí)喜歡吃零食的習(xí)慣。
但是,有些搭配會(huì)讓人完全摸不到頭腦,比如把咖啡和信用卡或者房貸聯(lián)系起來。不管是能夠找到原因的,還是想不出原因的(可能背后存在著我們一時(shí)想不到的原因),只要使用了這些相關(guān)性,廣告的效果就好。當(dāng)然,在利用相關(guān)性時(shí),我們希望是那種可信度比較高的,即數(shù)學(xué)上所謂的強(qiáng)相關(guān)性,而不是隨便把一些看似相關(guān)的東西扯到一起。
我們?cè)谇懊嫣岬?,能通過因果關(guān)系找到答案,根據(jù)因果關(guān)系知道原因固然好,但是對(duì)于復(fù)雜的問題,其難度非常大,除了靠物質(zhì)條件、人們的努力,還要靠運(yùn)氣。
牛頓和愛因斯坦都是運(yùn)氣很好的人。遺憾的是,大部分時(shí)候我們并沒有靈感和運(yùn)氣,因此很多問題得不到解決。在大數(shù)據(jù)時(shí)代,我們能夠得益于一種新的思維方法—從大量的數(shù)據(jù)中直接找到答案,即使不知道原因。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10