
大數(shù)據(jù)時代的思維變革,讓數(shù)據(jù)發(fā)聲_數(shù)據(jù)分析師
導語:本文為維克托-邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)撰寫的《大數(shù)據(jù)時代》一書第二部分摘錄,感興趣的朋友可以保存下來仔細閱讀。
“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內容及信息與信息之間的關系,然而直到最近,我們對此似乎還是難以把握。IBM的資深“大數(shù)據(jù)”專家杰夫-喬納斯(JeffJonas)提出要讓數(shù)據(jù)“說話”。從某種層面上來說,這聽起來很平常。人們使用數(shù)據(jù)已經(jīng)有相當長一段時間了,無論是日常進行的大量非正式觀察,還是過去幾個世紀里在專業(yè)層面上用高級算法進行的量化研究,都與數(shù)據(jù)有關。
在數(shù)字化時代,數(shù)據(jù)處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數(shù)據(jù)。但當我們談論能“說話”的數(shù)據(jù)時,我們指的遠遠不止這些。
實際上,大數(shù)據(jù)與三個重大的思維轉變有關,這三個轉變是相互聯(lián)系和相互作用的。
首先,要分析與某事物相關的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。
其次,我們樂于接受數(shù)據(jù)的紛繁復雜,而不再追求精確性。
最后,我們的思想發(fā)生了轉變,不再探求難以捉摸的因果關系,轉而關注事物的相關關系。
本章就將介紹第一個轉變:利用所有的數(shù)據(jù),而不再僅僅依靠一小部分數(shù)據(jù)。
很長一段時間以來,準確分析大量數(shù)據(jù)對我們而言都是一種挑戰(zhàn)。過去,因為記錄、儲存和分析數(shù)據(jù)的工具不夠好,我們只能收集少量數(shù)據(jù)進行分析,這讓我們一度很苦惱。為了讓分析變得簡單,我們會把數(shù)據(jù)量縮減到最少。這是一種無意識的自省:我們把與數(shù)據(jù)交流的困難看成是自然的,而沒有意識到這只是當時技術條件下的一種人為的限制。如今,技術條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,也永遠是有限的,但是我們可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來會越來越多。
在某些方面,我們依然沒有完全意識到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力。我們還是在信息匱乏的假設下做很多事情,建立很多機構組織。我們假定自己只能收集到少量信息,結果就真的如此了。這是一個自我實現(xiàn)的過程。我們甚至發(fā)展了一些使用盡可能少的信息的技術。別忘了,統(tǒng)計學的一個目的就是用盡可能少的數(shù)據(jù)來證實盡可能重大的發(fā)現(xiàn)。事實上,我們形成了一種習慣,那就是在我們的制度、處理過程和激勵機制中盡可能地減少數(shù)據(jù)的使用。為了理解大數(shù)據(jù)時代的轉變意味著什么,我們需要首先回顧一下過去。
直到最近,私人企業(yè)和個人才擁有了大規(guī)模收集和分類數(shù)據(jù)的能力。在過去,這是只有教會或者政府才能做到的。當然,在很多國家,教會和政府是等同的。有記載的、最早的計數(shù)發(fā)生在公元前8000年的,當時蘇美爾的商人用黏土珠來記錄出售的商品。大規(guī)模的計數(shù)則是政府的事情。數(shù)千年來,政府都試圖通過收集信息來管理國民。
以人口普查為例。據(jù)說古代埃及曾進行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都凱撒主導實施的人口普查,提出了“每個人都必須納稅”,這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恒。1086年的《末日審判書》(TheDoomsdayBook)對當時英國的人口、土地和財產(chǎn)做了一個前所未有的全面記載。皇家委員穿越整個國家對每個人、每件事都做了記載,后來這本書用《圣經(jīng)》中的《末日審判書》命名,因為每個人的生活都被赤裸裸地記載下來的過程就像接受“最后的審判”一樣。
然而,人口普查是一項耗資且費時的事情。國王威廉一世(KingWilliamI)在他發(fā)起的《末日審判書》完成之前就去世了。但是,除非放棄收集信息,否則在當時沒有其他辦法。盡管如此,當時收集的信息也只是一個大概情況,實施人口普查的人也知道他們不可能準確記錄下每個人的信息。實際上,“人口普查”這個詞來源于拉丁語的“censere”,意思就是推測、估算。
三百多年前,一個名叫約翰-格朗特(JohnGraunt)的英國縫紉用品商提出了一個很有新意的方法。他采用了一個新方法推算出鼠疫時期倫敦的人口數(shù),這種方法就是后來的統(tǒng)計學。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。
雖然后來證實他能夠得出正確的數(shù)據(jù)僅僅是因為運氣好,但在當時他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此無論是進行人口普查還是其他大數(shù)據(jù)類的任務,人們還是一直使用具體計數(shù)這種“野蠻”的方法。
考慮到人口普查的復雜性以及耗時耗費的特點,政府極少進行普查。古羅馬人在人口以萬計數(shù)的時候每5年普查一次。美國憲法規(guī)定每10年進行一次人口普查,因為隨著國家人口越來越多,只能以百萬計數(shù)了。但是到19世紀為止,即使這樣不頻繁的人口普查依然很困難,因為數(shù)據(jù)變化的速度超過了人口普查局統(tǒng)計分析的能力。
美國在1880年進行的人口普查,耗時8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過時的。1890年進行的人口普查,預計要花費13年的時間來匯總數(shù)據(jù)。即使不考慮這種情況違反了憲法規(guī)定,它也是很荒謬的。然而,因為稅收分攤和國會代表人數(shù)確定都是建立在人口的基礎上的,所以必須要得到正確的數(shù)據(jù),而且必須是及時的數(shù)據(jù)。
美國人口普查局面臨的問題與當代商人和科學家遇到的問題很相似。很明顯,當他們被數(shù)據(jù)淹沒的時候,已有的數(shù)據(jù)處理工具已經(jīng)難以應付了,所以就需要有更多的新技術。
后來,美國人口普查局就和當時的美國發(fā)明家赫爾曼-霍爾瑞斯(HermanHollerith)簽訂了一個協(xié)議,用他的穿孔卡片制表機來完成1890年的人口普查。
經(jīng)過大量的努力,霍爾瑞斯成功地在1年時間內完成了人口普查。這簡直就是一個奇跡,它標志著自動處理數(shù)據(jù)的開端,也為后來IBM公司的成立奠定了基礎。但是,將其作為收集處理大數(shù)據(jù)的方法依然過于昂貴。畢竟,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進行統(tǒng)計。這么麻煩的情況下,很難想象如果不足十年就要進行一次人口普查應該怎么辦。但是,對于一個跨越式發(fā)展的國家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。
這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關被分析事物的所有數(shù)據(jù),但是當數(shù)量無比龐大時,這又不太現(xiàn)實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當?shù)姆椒ā?934年,波蘭統(tǒng)計學家耶日-奈曼(JerzyNeyman)指出,這只會導致更多更大的漏洞。事實證明,問題的關鍵是選擇樣本時的隨機性。
統(tǒng)計學家們證明:采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數(shù)量的增加關系不大。雖然聽起來很不可思議,但事實上,一個對1100人進行的關于“是否”問題的抽樣調查有著很高的精確性,精確度甚至超過了對所有人進行調查時的97%。這是真的,不管是調查10萬人還是1億人,20次調查里有19都是這樣。為什么會這樣?原因很復雜,但是有一個比較簡單的解釋就是,當樣本數(shù)量達到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經(jīng)濟學中的邊際效應遞減一樣。
認為樣本選擇的隨機性比樣本數(shù)量更重要,這種觀點是非常有見地的。這種觀點為我們開辟了一條收集信息的新道路。通過收集隨機樣本,我們可以用較少的花費做出高精準度的推斷。因此,政府每年都可以用隨機采樣的方法進行小規(guī)模的人口普查,而不是只能每十年進行一次。事實上,政府也這樣做了。例如,除了十年一次的人口大普查,美國人口普查局每年都會用隨機采樣的方法對經(jīng)濟和人口進行200多次小規(guī)模的調查。當收集和分析數(shù)據(jù)都不容易時,隨機采樣就成為應對信息過量的辦法。
很快,隨機采樣就不僅應用于公共部門和人口普查了。在商業(yè)領域,隨機采樣被用來監(jiān)管商品質量。這使得監(jiān)管商品質量和提升商品品質變得更容易,花費也更少。以前,全面的質量監(jiān)管要求對生產(chǎn)出來的每個產(chǎn)品進行檢查,而現(xiàn)在只需從一批商品中隨機抽取部分樣品進行檢查就可以了。本質上來說,隨機采樣讓大數(shù)據(jù)問題變得更加切實可行。同理,它將客戶調查引進了零售行業(yè),將焦點討論引進了政治界,也將許多人文問題變成了社會科學問題。
隨機采樣取得了巨大的成功,成為現(xiàn)代社會、現(xiàn)代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對隨機性,但是實現(xiàn)采樣的隨機性非常困難。一旦采樣過程中存在任何偏見,分析結果就會相去甚遠。
最近,以固定電話用戶為基礎進行投票民調就面臨了這樣的問題,采樣缺乏隨機性,因為沒有考慮到只使用移動電話的用戶——這些用戶一般更年輕和更熱愛自由。沒有考慮到這些用戶,自然就得不到正確的預測。2008年在奧巴馬與麥凱恩之間進行的美國總統(tǒng)大選中,蓋洛普咨詢公司、皮尤研究中心(Pew)、美國廣播公司和華盛頓郵報這些主要的民調組織都發(fā)現(xiàn),如果他們不把移動用戶考慮進來,民意測試結果就會出現(xiàn)三個點的偏差,而一旦考慮進來,偏差就只有一個點。鑒于這次大選的票數(shù)差距極其微弱,這已經(jīng)是非常大的偏差了。
更糟糕的是,隨機采樣不適合考察子類別的情況。因為一旦繼續(xù)細分,隨機采樣結果的錯誤率會大大增加。這很容易理解。倘若你有一份隨機采樣的調查結果,是關于1000個人在下一次競選中的投票意向。如果采樣時足夠隨機,這份調查的結果就有可能在3%的誤差范圍內顯示全民的意向。但是如果這個3%左右的誤差本來就是不確定的,卻又把這個調查結果根據(jù)性別、地域和收入進行細分,結果是不是越來越不準確呢?用這些細分過后的結果來表現(xiàn)全民的意愿,是否合適呢?
你設想一下,一個對1000個人進行的調查,如果要細分到“東北部的富裕女性”,調查的人數(shù)就遠遠少于1000人了。即使是完全隨機的調查,倘若只用了幾十個人來預測整個東北部富裕女性選民的意愿,還是不可能得到精確結果啊!而且,一旦采樣過程中存在任何偏見,在細分領域所做的預測就會大錯特錯。
因此,當人們想了解更深層次的細分領域的情況時,隨機采樣的方法就不可取了。在宏觀領域起作用的方法在微觀領域失去了作用。隨機采樣就像是模擬照片打印,遠看很不錯,但是一旦聚焦某個點,就會變得模糊不清。
隨機采樣也需要嚴密的安排和執(zhí)行。人們只能從采樣數(shù)據(jù)中得出事先設計好的問題的結果——千萬不要奢求采樣的數(shù)據(jù)還能回答你突然意識到的問題。所以雖說隨機采樣是一條捷徑,但它也只是一條捷徑。隨機采樣方法并不適用于一切情況,因為這種調查結果缺乏延展性,即調查得出的數(shù)據(jù)不可以重新分析以實現(xiàn)計劃之外的目的。
我們來看一下DNA分析。由于技術成本大幅下跌以及在醫(yī)學方面的廣闊前景,個人基因排序成為了一門新興產(chǎn)業(yè)。2012年,基因組解碼的價格跌破1000美元,這也是非正式的行業(yè)平均水平。從2007年起,硅谷的新興科技公司23andme就開始分析人類基因,價格僅為幾百美元。這可以揭示出人類遺傳密碼中一些會導致其對某些疾病抵抗力差的特征,如乳腺癌和心臟病。23andme希望能通過整合顧客的DNA和健康信息,了解到用其他方式不能獲取的新信息。
公司對某人的一小部分DNA進行排序,標注出幾十個特定的基因缺陷。這只是該人整個基因密碼的樣本,還有幾十億個基因堿基對未排序。最后,23andme只能回答它們標注過的基因組表現(xiàn)出來的問題。發(fā)現(xiàn)新標注時,該人的DNA必須重新排序,更準確地說,是相關的部分必須重新排列。只研究樣本而不是整體,有利有弊:能更快更容易地發(fā)現(xiàn)問題,但不能回答事先未考慮到的問題。
蘋果公司的傳奇總裁史蒂夫-喬布斯在與癌癥斗爭的過程中采用了不同的方式,成為世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。為此,他支付了高達幾十萬美元的費用,這是23andme報價的幾百倍之多。所以,他得到的不是一個只有一系列標記的樣本,他得到了包括整個基因密碼的數(shù)據(jù)文檔。
對于一個普通的癌癥患者,醫(yī)生只能期望她的DNA排列同試驗中使用的樣本足夠相似。但是,史蒂夫-喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導致藥物失效,醫(yī)生可以及時更換另一種藥,也就是喬布斯所說的,“從一片睡蓮葉跳到另一片上?!眴滩妓归_玩笑說:“我要么是第一個通過這種方式戰(zhàn)勝癌癥的人,要么就是最后一個因為這種方式死于癌癥的人?!彪m然他的愿望都沒有實現(xiàn),但是這種獲得所有數(shù)據(jù)而不僅是樣本的方法還是將他的生命延長了好幾年。
在信息處理能力受限的時代,世界需要數(shù)據(jù)分析,卻缺少用來分析所收集數(shù)據(jù)的工具,因此隨機采樣應運而生,它也可以被視為那個時代的產(chǎn)物。如今,計算和制表不再像過去一樣困難。感應器、手機導航、網(wǎng)站點擊和twitter被動地收集了大量數(shù)據(jù),而計算機可以輕易地對這些數(shù)據(jù)進行處理。
采樣的目的就是用最少的數(shù)據(jù)得到最多的信息。當我們可以獲得海量數(shù)據(jù)的時候,它就沒有什么意義了。數(shù)據(jù)處理技術已經(jīng)發(fā)生了翻天覆地的改變,但我們的方法和思維卻沒有跟上這種改變。
然而,采樣一直有一個被我們廣泛承認卻又總有意避開的缺陷,現(xiàn)在這個缺陷越來越難以忽視了。采樣忽視了細節(jié)考察。雖然我們別無選擇,只能利用采樣分析法來進行考察,但是在很多領域,從收集部分數(shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉變已經(jīng)發(fā)生了。如果可能的話,我們會收集所有的數(shù)據(jù),即“樣本=總體”。
正如我們所看到的,“樣本=總體”是指我們能對數(shù)據(jù)進行深度探討,而采樣幾乎無法達到這樣的效果。上面提到的有關采樣的例子證明,用采樣的方法分析整個人口的情況,正確率可達97%。對于某些事物來說,3%的錯誤率是可以接受的。但是你無法得到一些微觀細節(jié)的信息,甚至還會失去對某些特定子類別進行進一步研究的能力。正態(tài)分布是標準的。生活中真正有趣的事情經(jīng)常藏匿在細節(jié)之中,而采樣分析法卻無法捕捉到這些細節(jié)。
谷歌流感趨勢預測并不是依賴于對隨機樣本的分析,而是分析了整個美國幾十億條互聯(lián)網(wǎng)檢索記錄。分析整個數(shù)據(jù)庫,而不是對一個樣本進行分析,能夠提高微觀層面分析的準確性,甚至能夠推測出某個特定城市的流感狀況,而不只是一個州或是整個國家的情況。Farecast的初始系統(tǒng)使用的樣本包含12000個數(shù)據(jù),所以取得了不錯的預測結果。但是隨著奧倫-埃齊奧尼不斷添加更多的數(shù)據(jù),預測的結果越來越準確。最終,F(xiàn)arecast使用了每一條航線整整一年的價格數(shù)據(jù)來進行預測。埃齊奧尼說:“這只是一個暫時性的數(shù)據(jù),隨著你收集的數(shù)據(jù)越來越多,你的預測結果會越來越準確?!?/span>
所以,我們現(xiàn)在經(jīng)常會放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù)。我們需要足夠的數(shù)據(jù)處理和存儲能力,也需要最先進的分析技術。同時,簡單廉價的數(shù)據(jù)收集方法也很重要。過去,這些問題中的任何一個都很棘手。在一個資源有限的時代,要解決這些問題需要付出很高的代價。但是現(xiàn)在,解決這些難題已經(jīng)變得簡單容易得多。曾經(jīng)只有大公司才能做到的事情,現(xiàn)在絕大部分的公司都可以做到了。
通過使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會在大量數(shù)據(jù)中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識別的,只有掌握了所有的數(shù)據(jù)才能做到這一點。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進行對比。這是一個大數(shù)據(jù)問題。而且,因為交易是即時的,所以你的數(shù)據(jù)分析也應該是即時的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結構數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結構數(shù)據(jù)特征價值的專業(yè)核心 表結構數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據(jù)分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結構數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結構數(shù)據(jù)(以 “行 - 列” 存儲的結構化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結構數(shù)據(jù)價值的核心操盤手 表格結構數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據(jù)把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10