
大數(shù)據時代的利與弊_數(shù)據分析師培訓
雖然早已聽說過舍恩伯格的《大數(shù)據時代》,但直到前不久才瀏覽本書的內容,看完之后還是有點震撼的,主要是大數(shù)據對我們日常生活和思維的影響太大了。下面摘取部分原文表述或案例來梳理一下這本書,其中有我本人的部分總結和評述。
有三個案例比較有意思,一是福特的名言,“如果當年去問顧客他們想要什么,他們肯定會告訴我:一匹更快的馬?!?/span>
喬布斯多年來持續(xù)不斷地改善Mac筆記本依賴的可能是行業(yè)分析,但是他發(fā)行的iPod、iPhone和iPad靠的不是數(shù)據,而是直覺,第六感。
谷歌公司內部的研究表明工作表現(xiàn)與大學畢業(yè)時的平均績點沒有關系,但其創(chuàng)始人依然要應聘者提供分數(shù)。
前兩個例子(福特和蘋果)說明大數(shù)據有時候是無效的,后面谷歌的例子則說明管理層對數(shù)據過度的執(zhí)著。
大數(shù)據對人類生活的破壞莫過于它過于強大的預測功能,如通過一個人過去的表現(xiàn)可以準確預測到他在特定環(huán)境下一定會犯罪,那么,社會保障機制就會懲罰一個從來沒有犯錯的人。如書中所述:
“因為預測的結果幾乎不可辯駁,人們也就無法為自己開脫。但這種基于預測得出的懲罰不僅違背自由意志的原則,同時也否定了人們會突然改變選擇的可能性?!?/span>
以上弊多些,下面談利。
聰明的公司會從人們與信息交互中收集數(shù)據廢氣,以用來改善現(xiàn)有的服務或推出全新的服務。
“擁有知識曾意味著掌握過去,現(xiàn)在則更意味著能夠預測未來。”-----這句話很精辟。
“情報分析員結合實地考察報告和過去IED襲擊地點、時間和人員傷亡的詳細信息,據此預測一天中最安全的運送路線。”類似的,我也聽說過美國建立的爆炸物碎片博物館的事情,基于爆炸物的各種信息追蹤恐怖分子武器彈藥的生產基地和儲存地點。
“為了促進大數(shù)據平臺的良性競爭,政府必須運用反壟斷條例?!?/span>
谷歌對量化數(shù)據的極致追求可能過頭了,因此激起了員工的反抗。(弊)
通過大數(shù)據預測來判斷和懲罰人類的潛在行為是對公平公正和自由意志的一種褻瀆。(弊)
過去是要成為一個優(yōu)秀的生物學家就需要認識很多生物學家,但現(xiàn)在可能是,要解決一個生物難題或許和天體物理學家或數(shù)據視圖設計師聯(lián)系即可。
由于大數(shù)據的功勞,微軟機器翻譯部門的統(tǒng)計學家在茶余飯后的談資就是每次一有語言學家離開他們的團隊,翻譯質量就會好一點。
當亞馬遜的貝索斯發(fā)現(xiàn)算法推薦能促進銷量增加的時候,他就不再需要書籍評論員了。
“有風險才有回報?!?/span>
更明智的選擇是讓自己受益,汽車制造商與供貨商的例子十分精彩,感興趣的可以參見原書p171.
上班高峰期交通狀況的變好說明失業(yè)率增加,即經濟狀況變差。
谷歌和亞馬遜:數(shù)據、技能和思維三者兼?zhèn)涞膬?yōu)秀公司。
數(shù)據的擁有者可能沒有使用數(shù)據的動機和強制要求。
外行人的思維不受專業(yè)限制,可能做出有更有價值的發(fā)現(xiàn)。
數(shù)據科學家是統(tǒng)計學家、軟件程序員、圖形設計師和作家的結合體。
谷歌首席經濟學家范里安認為統(tǒng)計學家是世界上最棒的職業(yè),“如果你想成功,你不應該成為一個普通的、可被隨意替代的人,你應該成為稀缺的、不可替代的那類人?!薄皵?shù)據非常之多,但是真正缺乏的是從數(shù)據提取價值的能力?!?/span>
DataMarket向人們提供其他機構(如聯(lián)合國、世界銀行和歐盟統(tǒng)計局等)的免費數(shù)據,真的嗎??
無形資產,如數(shù)據占到美國上市公司價值的75%。
政府才是大數(shù)據的原始采集者,因此奧巴馬說的很好,“面對懷疑,公開優(yōu)先”,就是政府應該承擔的責任。
丹麥癌癥協(xié)會的案例:手機是否增加致癌率。他們使用的數(shù)據集原本根本不是用來研究這個問題的,基于“樣本=總體”,做出了重大發(fā)現(xiàn):使用移動電話與癌癥風險增加不存在任何關聯(lián)。這項研究彰顯了“重組數(shù)據(二次利用)”的魅力。
思維的轉換案例:零售商在店內安裝監(jiān)控攝像頭不僅能認出商店扒手,還能跟蹤在商店購物的顧客和他們停留的位置。零售商利用后面的信息可以設計店面的最佳布局并判斷營銷活動的有效性。在此之前,監(jiān)控攝像頭僅用于安保,現(xiàn)在則變成的一種可以增加收入的投資。
同樣是亞馬遜和谷歌的案例,AOL和Nuance與他們合作簡直虧死了,大公司真可怕!
同樣是震撼的案例:
“數(shù)據的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下?!?/span>
1)Farecast利用機票銷售數(shù)據來預測未來的機票價格;2)谷歌重復使用搜索關鍵詞來預測流感的傳播;3)麥格雷戈博士用嬰兒的生命體征預測傳染病的發(fā)生;4)莫里重新利用老船長的日志而發(fā)現(xiàn)了洋流。
幾十年的試驗和錯誤才實現(xiàn)現(xiàn)有加油站的有效分配,但電動汽車的充電站的需求和設置點目前還不得而知。
哈哈,“魚不知道自己是濕的”,真的嗎??
驗證碼的發(fā)明人路易斯27歲時獲得了50萬美元的麥克阿瑟的“天才獎”。(題外話:2012年美國的最低工資是7.25美元/小時,一天工作八小時的話,則是348元人民幣。)
一點點的不精確比完全精確更有效。
當?shù)匕鍞?shù)據化的時候,它能滋生無窮無盡的用途。
大數(shù)據分析表明:個人償還債務的可能性和其朋友償還債務的可能性正相關,物以類聚,人以群分啊!
UPS最佳行車路徑:盡量少左轉,因為左轉要求貨車在交叉路口穿過去,所以更容易出事故。貨車往往需要等待一會才能左轉,因此更耗油,減少左轉使得行車的安全性和效率都得到了大幅提升。
萊維斯:“預測給我們知識,而知識賦予我們智慧和洞見?!?/span>
iPhone本身就是一個“移動間諜”,同樣包括安卓的和微軟的手機。
谷歌,一個喜歡跨界的叛逆的大數(shù)據公司。亞馬遜深諳數(shù)字化內容的意義,而谷歌觸及了數(shù)據化內容的價值。
哈佛大學的研究人員發(fā)現(xiàn)5000億個單詞中有一半以上在字典中無法找到,真的嗎?
1900年以前,“因果關系(causality)”這個詞比“相關關系”(correlation)使用頻率高,但在1900年之后,情況相反。(Google Ngram Viewer)
“Data”這個詞在拉丁文里是“已知”的意思。
鄧肯說:一旦你知道了結果,一切都很容易。
感冒與穿戴之間沒有直接關系。
“數(shù)據表明,早產兒的穩(wěn)定不但不是疾病好轉的標志,反而是暴風雨前的寧靜,就像是身體要它的器官做好抵抗困難的準備。”類似于回光返照啊!
“一個東西要出故障,不會是瞬間的,而是慢慢地出問題的。”冰凍三尺非一日之寒!
達爾文的表弟費朗西斯-高爾頓爵士就注意到了人的身高與前臂長度的關系,達爾文家族真是厲害,好像每個人都是科學家!
相關關系的核心是量化兩個數(shù)據值之間的數(shù)理關系。
印象派的畫風:近看每一筆都是混亂的,退后一步看卻是一副偉大的作品。
快速獲得事物的一個大概的輪廓和發(fā)展脈絡,就要比嚴格的精確性要重要的多。
偉大的物理學家開爾文男爵:測量就是認知。
一個在關系網內有著眾多好友的人的重要性不如一個與很多關系網外的人有聯(lián)系的人,說明多樣性的額外價值。------Structureand tie strengths in mobile communication networks.
擁有全部或幾乎全部的數(shù)據,我們就能夠從不同的角度,更細致地觀察和研究數(shù)據的方方面面。
大數(shù)據是指不用隨機分析法這樣的捷徑,而采用所有數(shù)據的方法。
異常值也是很有用的信息,如甄別信用卡詐騙。
我們不能滿足于正態(tài)分布一般中庸平凡的景象,生活中真正有趣的事情經常藏匿在細節(jié)之中,而采樣分析法無法捕捉到這些細節(jié)。
“采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數(shù)量的增加關系不大。當樣本數(shù)量達到某個值后,我們從個體身上得到的信息越來越少?!?--p33,但這只是傳統(tǒng)的數(shù)據收集方法,且必須保證“隨機性”才是成立的!
“寶貝不止一個,每個數(shù)據集內部都隱藏著某些未被發(fā)覺的價值?!?/span>
“相關關系也許不能準確地告知我們某件事情為何發(fā)生,但是它會提醒我們這個事情正在發(fā)生?!?/span>
“大數(shù)據的核心就是預測?!?/span>
“物理學和生物學都告訴我們,當我們改變規(guī)模時,事物的狀態(tài)也有也會發(fā)生改變?!?/span>
“數(shù)據的奧妙只為謙遜、愿意聆聽且掌握聆聽手段的人所知。”
谷歌為測試檢索詞條,總共處理了4.5億個不同的數(shù)學模型,驚嘆!
“越是萬能的,就越是空洞的?!?---至理名言!
大數(shù)據時代處理數(shù)據理念上的三大轉變:要全體不要抽樣、要效率不要絕對精確、要相關不要因果。
“最重要的是人們可以在很大程度上從對于因果關系的追求中解脫出來,轉而將注意力放在相關關系的發(fā)現(xiàn)和使用上,只要發(fā)現(xiàn)兩個現(xiàn)象之間存在的顯著相關性,就可以創(chuàng)造巨大的經濟和社會效益,而弄清二者為什么相關可以留待學者們慢慢研究?!?--謝文
大數(shù)據在公共衛(wèi)生、商業(yè)服務領域的應用:不再追求精確性,不再追求因果關系,而是承認混雜性,探索相關關系。
我覺得可以以下面一小段話結束全文:關于大數(shù)據,我們或許還不能完全適應,因為我們腦海里一種根深蒂固的對因果關系和精準數(shù)據的追求。而我們的下一代,一群被“大數(shù)據觀念”陶冶長大的家伙,會發(fā)自肺腑地認為“量化一切”并從中學習對于社會是至關重要的。
數(shù)據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據分析師:表結構數(shù)據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數(shù)據(如數(shù)據庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據分析師:解鎖表結構數(shù)據特征價值的專業(yè)核心 表結構數(shù)據(以 “行 - 列” 規(guī)范存儲的結構化數(shù)據,如數(shù)據庫表、Excel 表、 ...
2025-09-17Excel 導入數(shù)據含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數(shù)據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數(shù)據差異是否 “ ...
2025-09-16CDA 數(shù)據分析師:掌控表格結構數(shù)據全功能周期的專業(yè)操盤手 表格結構數(shù)據(以 “行 - 列” 存儲的結構化數(shù)據,如 Excel 表、數(shù)據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據分析師:激活表格結構數(shù)據價值的核心操盤手 表格結構數(shù)據(如 Excel 表格、數(shù)據庫表)是企業(yè)最基礎、最核心的數(shù)據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數(shù)據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據的科學計數(shù)法問題 為幫助 Python 數(shù)據從業(yè)者解決pd.read_csv讀取長浮點數(shù)據時的科學計數(shù)法問題 ...
2025-09-12CDA 數(shù)據分析師:業(yè)務數(shù)據分析步驟的落地者與價值優(yōu)化者 業(yè)務數(shù)據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數(shù)據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據分析師與戰(zhàn)略 / 業(yè)務數(shù)據分析:概念辨析與協(xié)同價值 在數(shù)據驅動決策的體系中,“戰(zhàn)略數(shù)據分析”“業(yè)務數(shù)據分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據聚類分析:從操作實踐到業(yè)務價值挖掘 在數(shù)據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據解讀到決策支撐的價值導向 統(tǒng)計模型作為數(shù)據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10