
大數(shù)據(jù)時(shí)代的利與弊_數(shù)據(jù)分析師培訓(xùn)
雖然早已聽說過舍恩伯格的《大數(shù)據(jù)時(shí)代》,但直到前不久才瀏覽本書的內(nèi)容,看完之后還是有點(diǎn)震撼的,主要是大數(shù)據(jù)對(duì)我們?nèi)粘I詈退季S的影響太大了。下面摘取部分原文表述或案例來梳理一下這本書,其中有我本人的部分總結(jié)和評(píng)述。
有三個(gè)案例比較有意思,一是福特的名言,“如果當(dāng)年去問顧客他們想要什么,他們肯定會(huì)告訴我:一匹更快的馬?!?/span>
喬布斯多年來持續(xù)不斷地改善Mac筆記本依賴的可能是行業(yè)分析,但是他發(fā)行的iPod、iPhone和iPad靠的不是數(shù)據(jù),而是直覺,第六感。
谷歌公司內(nèi)部的研究表明工作表現(xiàn)與大學(xué)畢業(yè)時(shí)的平均績(jī)點(diǎn)沒有關(guān)系,但其創(chuàng)始人依然要應(yīng)聘者提供分?jǐn)?shù)。
前兩個(gè)例子(福特和蘋果)說明大數(shù)據(jù)有時(shí)候是無(wú)效的,后面谷歌的例子則說明管理層對(duì)數(shù)據(jù)過度的執(zhí)著。
大數(shù)據(jù)對(duì)人類生活的破壞莫過于它過于強(qiáng)大的預(yù)測(cè)功能,如通過一個(gè)人過去的表現(xiàn)可以準(zhǔn)確預(yù)測(cè)到他在特定環(huán)境下一定會(huì)犯罪,那么,社會(huì)保障機(jī)制就會(huì)懲罰一個(gè)從來沒有犯錯(cuò)的人。如書中所述:
“因?yàn)轭A(yù)測(cè)的結(jié)果幾乎不可辯駁,人們也就無(wú)法為自己開脫。但這種基于預(yù)測(cè)得出的懲罰不僅違背自由意志的原則,同時(shí)也否定了人們會(huì)突然改變選擇的可能性。”
以上弊多些,下面談利。
聰明的公司會(huì)從人們與信息交互中收集數(shù)據(jù)廢氣,以用來改善現(xiàn)有的服務(wù)或推出全新的服務(wù)。
“擁有知識(shí)曾意味著掌握過去,現(xiàn)在則更意味著能夠預(yù)測(cè)未來。”-----這句話很精辟。
“情報(bào)分析員結(jié)合實(shí)地考察報(bào)告和過去IED襲擊地點(diǎn)、時(shí)間和人員傷亡的詳細(xì)信息,據(jù)此預(yù)測(cè)一天中最安全的運(yùn)送路線。”類似的,我也聽說過美國(guó)建立的爆炸物碎片博物館的事情,基于爆炸物的各種信息追蹤恐怖分子武器彈藥的生產(chǎn)基地和儲(chǔ)存地點(diǎn)。
“為了促進(jìn)大數(shù)據(jù)平臺(tái)的良性競(jìng)爭(zhēng),政府必須運(yùn)用反壟斷條例。”
谷歌對(duì)量化數(shù)據(jù)的極致追求可能過頭了,因此激起了員工的反抗。(弊)
通過大數(shù)據(jù)預(yù)測(cè)來判斷和懲罰人類的潛在行為是對(duì)公平公正和自由意志的一種褻瀆。(弊)
過去是要成為一個(gè)優(yōu)秀的生物學(xué)家就需要認(rèn)識(shí)很多生物學(xué)家,但現(xiàn)在可能是,要解決一個(gè)生物難題或許和天體物理學(xué)家或數(shù)據(jù)視圖設(shè)計(jì)師聯(lián)系即可。
由于大數(shù)據(jù)的功勞,微軟機(jī)器翻譯部門的統(tǒng)計(jì)學(xué)家在茶余飯后的談資就是每次一有語(yǔ)言學(xué)家離開他們的團(tuán)隊(duì),翻譯質(zhì)量就會(huì)好一點(diǎn)。
當(dāng)亞馬遜的貝索斯發(fā)現(xiàn)算法推薦能促進(jìn)銷量增加的時(shí)候,他就不再需要書籍評(píng)論員了。
“有風(fēng)險(xiǎn)才有回報(bào)?!?/span>
更明智的選擇是讓自己受益,汽車制造商與供貨商的例子十分精彩,感興趣的可以參見原書p171.
上班高峰期交通狀況的變好說明失業(yè)率增加,即經(jīng)濟(jì)狀況變差。
谷歌和亞馬遜:數(shù)據(jù)、技能和思維三者兼?zhèn)涞膬?yōu)秀公司。
數(shù)據(jù)的擁有者可能沒有使用數(shù)據(jù)的動(dòng)機(jī)和強(qiáng)制要求。
外行人的思維不受專業(yè)限制,可能做出有更有價(jià)值的發(fā)現(xiàn)。
數(shù)據(jù)科學(xué)家是統(tǒng)計(jì)學(xué)家、軟件程序員、圖形設(shè)計(jì)師和作家的結(jié)合體。
谷歌首席經(jīng)濟(jì)學(xué)家范里安認(rèn)為統(tǒng)計(jì)學(xué)家是世界上最棒的職業(yè),“如果你想成功,你不應(yīng)該成為一個(gè)普通的、可被隨意替代的人,你應(yīng)該成為稀缺的、不可替代的那類人?!薄皵?shù)據(jù)非常之多,但是真正缺乏的是從數(shù)據(jù)提取價(jià)值的能力。”
DataMarket向人們提供其他機(jī)構(gòu)(如聯(lián)合國(guó)、世界銀行和歐盟統(tǒng)計(jì)局等)的免費(fèi)數(shù)據(jù),真的嗎??
無(wú)形資產(chǎn),如數(shù)據(jù)占到美國(guó)上市公司價(jià)值的75%。
政府才是大數(shù)據(jù)的原始采集者,因此奧巴馬說的很好,“面對(duì)懷疑,公開優(yōu)先”,就是政府應(yīng)該承擔(dān)的責(zé)任。
丹麥癌癥協(xié)會(huì)的案例:手機(jī)是否增加致癌率。他們使用的數(shù)據(jù)集原本根本不是用來研究這個(gè)問題的,基于“樣本=總體”,做出了重大發(fā)現(xiàn):使用移動(dòng)電話與癌癥風(fēng)險(xiǎn)增加不存在任何關(guān)聯(lián)。這項(xiàng)研究彰顯了“重組數(shù)據(jù)(二次利用)”的魅力。
思維的轉(zhuǎn)換案例:零售商在店內(nèi)安裝監(jiān)控?cái)z像頭不僅能認(rèn)出商店扒手,還能跟蹤在商店購(gòu)物的顧客和他們停留的位置。零售商利用后面的信息可以設(shè)計(jì)店面的最佳布局并判斷營(yíng)銷活動(dòng)的有效性。在此之前,監(jiān)控?cái)z像頭僅用于安保,現(xiàn)在則變成的一種可以增加收入的投資。
同樣是亞馬遜和谷歌的案例,AOL和Nuance與他們合作簡(jiǎn)直虧死了,大公司真可怕!
同樣是震撼的案例:
“數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下?!?/span>
1)Farecast利用機(jī)票銷售數(shù)據(jù)來預(yù)測(cè)未來的機(jī)票價(jià)格;2)谷歌重復(fù)使用搜索關(guān)鍵詞來預(yù)測(cè)流感的傳播;3)麥格雷戈博士用嬰兒的生命體征預(yù)測(cè)傳染病的發(fā)生;4)莫里重新利用老船長(zhǎng)的日志而發(fā)現(xiàn)了洋流。
幾十年的試驗(yàn)和錯(cuò)誤才實(shí)現(xiàn)現(xiàn)有加油站的有效分配,但電動(dòng)汽車的充電站的需求和設(shè)置點(diǎn)目前還不得而知。
哈哈,“魚不知道自己是濕的”,真的嗎??
驗(yàn)證碼的發(fā)明人路易斯27歲時(shí)獲得了50萬(wàn)美元的麥克阿瑟的“天才獎(jiǎng)”。(題外話:2012年美國(guó)的最低工資是7.25美元/小時(shí),一天工作八小時(shí)的話,則是348元人民幣。)
一點(diǎn)點(diǎn)的不精確比完全精確更有效。
當(dāng)?shù)匕鍞?shù)據(jù)化的時(shí)候,它能滋生無(wú)窮無(wú)盡的用途。
大數(shù)據(jù)分析表明:個(gè)人償還債務(wù)的可能性和其朋友償還債務(wù)的可能性正相關(guān),物以類聚,人以群分啊!
UPS最佳行車路徑:盡量少左轉(zhuǎn),因?yàn)樽筠D(zhuǎn)要求貨車在交叉路口穿過去,所以更容易出事故。貨車往往需要等待一會(huì)才能左轉(zhuǎn),因此更耗油,減少左轉(zhuǎn)使得行車的安全性和效率都得到了大幅提升。
萊維斯:“預(yù)測(cè)給我們知識(shí),而知識(shí)賦予我們智慧和洞見?!?/span>
iPhone本身就是一個(gè)“移動(dòng)間諜”,同樣包括安卓的和微軟的手機(jī)。
谷歌,一個(gè)喜歡跨界的叛逆的大數(shù)據(jù)公司。亞馬遜深諳數(shù)字化內(nèi)容的意義,而谷歌觸及了數(shù)據(jù)化內(nèi)容的價(jià)值。
哈佛大學(xué)的研究人員發(fā)現(xiàn)5000億個(gè)單詞中有一半以上在字典中無(wú)法找到,真的嗎?
1900年以前,“因果關(guān)系(causality)”這個(gè)詞比“相關(guān)關(guān)系”(correlation)使用頻率高,但在1900年之后,情況相反。(Google Ngram Viewer)
“Data”這個(gè)詞在拉丁文里是“已知”的意思。
鄧肯說:一旦你知道了結(jié)果,一切都很容易。
感冒與穿戴之間沒有直接關(guān)系。
“數(shù)據(jù)表明,早產(chǎn)兒的穩(wěn)定不但不是疾病好轉(zhuǎn)的標(biāo)志,反而是暴風(fēng)雨前的寧?kù)o,就像是身體要它的器官做好抵抗困難的準(zhǔn)備?!鳖愃朴诨毓夥嫡瞻?
“一個(gè)東西要出故障,不會(huì)是瞬間的,而是慢慢地出問題的?!北鶅鋈叻且蝗罩?
達(dá)爾文的表弟費(fèi)朗西斯-高爾頓爵士就注意到了人的身高與前臂長(zhǎng)度的關(guān)系,達(dá)爾文家族真是厲害,好像每個(gè)人都是科學(xué)家!
相關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系。
印象派的畫風(fēng):近看每一筆都是混亂的,退后一步看卻是一副偉大的作品。
快速獲得事物的一個(gè)大概的輪廓和發(fā)展脈絡(luò),就要比嚴(yán)格的精確性要重要的多。
偉大的物理學(xué)家開爾文男爵:測(cè)量就是認(rèn)知。
一個(gè)在關(guān)系網(wǎng)內(nèi)有著眾多好友的人的重要性不如一個(gè)與很多關(guān)系網(wǎng)外的人有聯(lián)系的人,說明多樣性的額外價(jià)值。------Structureand tie strengths in mobile communication networks.
擁有全部或幾乎全部的數(shù)據(jù),我們就能夠從不同的角度,更細(xì)致地觀察和研究數(shù)據(jù)的方方面面。
大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。
異常值也是很有用的信息,如甄別信用卡詐騙。
我們不能滿足于正態(tài)分布一般中庸平凡的景象,生活中真正有趣的事情經(jīng)常藏匿在細(xì)節(jié)之中,而采樣分析法無(wú)法捕捉到這些細(xì)節(jié)。
“采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大。當(dāng)樣本數(shù)量達(dá)到某個(gè)值后,我們從個(gè)體身上得到的信息越來越少?!?--p33,但這只是傳統(tǒng)的數(shù)據(jù)收集方法,且必須保證“隨機(jī)性”才是成立的!
“寶貝不止一個(gè),每個(gè)數(shù)據(jù)集內(nèi)部都隱藏著某些未被發(fā)覺的價(jià)值?!?/span>
“相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何發(fā)生,但是它會(huì)提醒我們這個(gè)事情正在發(fā)生?!?/span>
“大數(shù)據(jù)的核心就是預(yù)測(cè)?!?/span>
“物理學(xué)和生物學(xué)都告訴我們,當(dāng)我們改變規(guī)模時(shí),事物的狀態(tài)也有也會(huì)發(fā)生改變?!?/span>
“數(shù)據(jù)的奧妙只為謙遜、愿意聆聽且掌握聆聽手段的人所知。”
谷歌為測(cè)試檢索詞條,總共處理了4.5億個(gè)不同的數(shù)學(xué)模型,驚嘆!
“越是萬(wàn)能的,就越是空洞的?!?---至理名言!
大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念上的三大轉(zhuǎn)變:要全體不要抽樣、要效率不要絕對(duì)精確、要相關(guān)不要因果。
“最重要的是人們可以在很大程度上從對(duì)于因果關(guān)系的追求中解脫出來,轉(zhuǎn)而將注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上,只要發(fā)現(xiàn)兩個(gè)現(xiàn)象之間存在的顯著相關(guān)性,就可以創(chuàng)造巨大的經(jīng)濟(jì)和社會(huì)效益,而弄清二者為什么相關(guān)可以留待學(xué)者們慢慢研究?!?--謝文
大數(shù)據(jù)在公共衛(wèi)生、商業(yè)服務(wù)領(lǐng)域的應(yīng)用:不再追求精確性,不再追求因果關(guān)系,而是承認(rèn)混雜性,探索相關(guān)關(guān)系。
我覺得可以以下面一小段話結(jié)束全文:關(guān)于大數(shù)據(jù),我們或許還不能完全適應(yīng),因?yàn)槲覀兡X海里一種根深蒂固的對(duì)因果關(guān)系和精準(zhǔn)數(shù)據(jù)的追求。而我們的下一代,一群被“大數(shù)據(jù)觀念”陶冶長(zhǎng)大的家伙,會(huì)發(fā)自肺腑地認(rèn)為“量化一切”并從中學(xué)習(xí)對(duì)于社會(huì)是至關(guān)重要的。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03