
讀書(shū)筆記 | 大數(shù)據(jù)時(shí)代
大數(shù)據(jù)這個(gè)概念在最近這幾年很火,大家也大概知道大數(shù)據(jù)到底是個(gè)什么東西,它是如何運(yùn)作的。現(xiàn)在好多產(chǎn)品上面都會(huì)有“猜你喜歡”這一功能,這就是利用大數(shù)據(jù)實(shí)現(xiàn)的。我們每天都在利用大數(shù)據(jù)或被大數(shù)據(jù)利用,但是我們當(dāng)中應(yīng)該沒(méi)有多少人真正知道大數(shù)據(jù)時(shí)代給我們帶來(lái)什么改變。這本書(shū)主要從大數(shù)據(jù)帶來(lái)的思維變革、商業(yè)變革、管理變革三個(gè)方面來(lái)寫。我主要會(huì)把這本書(shū)中的思維變革和商業(yè)變革寫出來(lái)(因管理變革目前我們中大部分人還用不到,所以就先不寫),本篇寫思維變革、商業(yè)變革下篇連載。
本書(shū)框架圖
思維變革
1.要全體數(shù)據(jù)、不要樣本
在信息處理能力受限的年代,世界需要數(shù)據(jù)分析,卻缺少用來(lái)分析所收集數(shù)據(jù)的工具,所以只能用隨機(jī)抽樣的方式進(jìn)行數(shù)據(jù)分析。
但是真正的大數(shù)據(jù)時(shí)代是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的分析方法。通過(guò)觀察所有數(shù)據(jù),來(lái)尋找異常值進(jìn)行分析。
比如:信用卡詐騙是通過(guò)異常情況來(lái)識(shí)別的,只有掌握了所有數(shù)據(jù)才能做到這一點(diǎn),在這種情況下,異常值是最有用的信息,你可以把他與正常交易情況作對(duì)比從而發(fā)現(xiàn)問(wèn)題。
2.要效率、不要精確性
在如今的信息時(shí)代。我們掌握的數(shù)據(jù)庫(kù)越來(lái)越全面,她不再只包括我們手頭那一點(diǎn)可憐的數(shù)據(jù),而是包括了與這些現(xiàn)象相關(guān)的大量甚至全部的數(shù)據(jù)。數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確,與此同時(shí),一些錯(cuò)誤的數(shù)據(jù)也會(huì)混進(jìn)數(shù)據(jù)庫(kù)。但是正因?yàn)槲覀冋莆樟藥缀跛械臄?shù)據(jù),所以我們不再擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價(jià)消除所有的不確定性。這就是由“小數(shù)據(jù)”到“大數(shù)據(jù)”的改變。
有時(shí)候當(dāng)我們掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要了,我們同樣可以掌握食物的發(fā)展趨勢(shì),大數(shù)據(jù)不僅讓我們不再期待準(zhǔn)確性,也讓我們無(wú)法實(shí)現(xiàn)準(zhǔn)確性。
值得注意的是,錯(cuò)誤并不是大數(shù)據(jù)本身固有的。他只是我們用來(lái)衡量、記錄和交流數(shù)據(jù)的工具的一個(gè)缺陷。如果說(shuō)哪一天技術(shù)完美無(wú)缺了,不精確度的問(wèn)題就不復(fù)存在了。錯(cuò)誤不是大數(shù)據(jù)固有的特性,而是一個(gè)需要我們?nèi)ヌ幚淼膶?shí)際問(wèn)題,并且可能長(zhǎng)期存在。
混雜性不是竭力避免,有的時(shí)候可以為我們所用?;ヂ?lián)網(wǎng)最火的產(chǎn)品都會(huì)表明,不精確性、混雜性要更好點(diǎn)。
比如微信朋友圈:朋友的發(fā)動(dòng)態(tài)時(shí)間,在一小時(shí)之內(nèi)的會(huì)顯示多少分鐘之前,在一小時(shí)以外的就只顯示幾小時(shí)前。
在微信公眾號(hào)閱讀量顯示,為什么超過(guò)十萬(wàn)以后顯示地是100000+,而不是具體數(shù)據(jù),因?yàn)槌^(guò)十萬(wàn)以后的數(shù)據(jù),我們心中或許就沒(méi)啥概念了,沒(méi)有一個(gè)參考衡量的標(biāo)準(zhǔn)了,十萬(wàn)已經(jīng)會(huì)讓我們覺(jué)得這篇文章很厲害了,能達(dá)到目的,就沒(méi)必要精確。
3.要相關(guān)關(guān)系、不要因果關(guān)系
知道是很什么就夠了,沒(méi)必要知道為什么。在大數(shù)據(jù)時(shí)代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲。
比如:知道用戶對(duì)什么感興趣即可,沒(méi)必要去研究用戶為什么感興趣。
相關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)據(jù)關(guān)系。相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),其他數(shù)據(jù)值很有可能也會(huì)隨之增加。
相關(guān)關(guān)系是通過(guò)識(shí)別關(guān)聯(lián)物來(lái)幫助我們分析某一現(xiàn)象,而不是揭示其內(nèi)部的運(yùn)作。
注意:即使很強(qiáng)的相關(guān)關(guān)系也不一定能揭示每一種情況,比如兩個(gè)事物看上去行為相似,很有可能只是巧合。相關(guān)關(guān)系沒(méi)有絕對(duì),只有相似。
通過(guò)給我們找到一個(gè)現(xiàn)象良好的關(guān)聯(lián)物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測(cè)未來(lái)。
比如:如果A和B經(jīng)常一起發(fā)生,我們只需要注意到B發(fā)生了,就可以預(yù)測(cè)A也發(fā)生了。
在小數(shù)據(jù)時(shí)代,數(shù)據(jù)分析專家會(huì)使用一些建立在理論基礎(chǔ)上的假想來(lái)指導(dǎo)自己選擇適當(dāng)?shù)年P(guān)聯(lián)物。然后收集與關(guān)聯(lián)物相關(guān)的數(shù)據(jù)來(lái)進(jìn)行分析,以證明假設(shè)是否正確。但是由于這是建立在假設(shè)的基礎(chǔ)上,那么分析結(jié)果也是有受偏見(jiàn)影響的可能。
在大數(shù)據(jù)時(shí)代,我們擁有如此多的數(shù)據(jù),如此好的計(jì)算機(jī)能力,所以不再需要人工選擇一個(gè)關(guān)聯(lián)物或者一小部分相似數(shù)據(jù)來(lái)逐一分析。通過(guò)去探求“是什么”而不是“為什么”,相關(guān)關(guān)系幫助我們更好的了解這個(gè)世界。
商業(yè)變革
1.數(shù)據(jù)化—量化一切
首先我們需要明確兩個(gè)概念就是數(shù)字化和數(shù)據(jù)化
數(shù)據(jù)化、是指一種把現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^(guò)程。
數(shù)字化、是指把模擬數(shù)據(jù)轉(zhuǎn)換成0和1表示的二進(jìn)制碼。
計(jì)算機(jī)的出現(xiàn)帶來(lái)了數(shù)字測(cè)量和存儲(chǔ)設(shè)備,數(shù)字化帶來(lái)了數(shù)據(jù)化,但是數(shù)字化無(wú)法取代數(shù)據(jù)化。
數(shù)據(jù)化的核心是量化一切,常見(jiàn)的被量化的有文字、方位和溝通。
當(dāng)文字變成圖書(shū),拿電子書(shū)為例,未數(shù)據(jù)化的電子書(shū)只能夠被展示出來(lái),讀者并不能通過(guò)搜索關(guān)鍵詞被查找到,也不能被分析。
當(dāng)方位變成數(shù)據(jù),就是將地理信息進(jìn)行,比如百度地圖、各種網(wǎng)站的獲取位置都是將方位變成數(shù)據(jù)。
當(dāng)溝通變成數(shù)據(jù),一些社交平臺(tái)通過(guò)添加各種心情表情,來(lái)收集我們的心情狀態(tài),還有人們的喜好,年齡什么的都可以變成數(shù)據(jù)。
2.價(jià)值—數(shù)據(jù)創(chuàng)新
不同于物質(zhì)性的東西,數(shù)據(jù)的價(jià)值不會(huì)隨著它的使用而減少。數(shù)據(jù)就像一個(gè)神奇的磚石礦,當(dāng)他的首要價(jià)值被發(fā)掘后仍能不斷給予。它的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分隱藏在表面之下。他可以為了同一目標(biāo)被多次使用,也用于其他目的。這就需要我們選擇性的對(duì)數(shù)據(jù)進(jìn)行創(chuàng)新,下面主要介紹幾點(diǎn)數(shù)據(jù)創(chuàng)新
數(shù)據(jù)再利用
就是數(shù)據(jù)在實(shí)現(xiàn)了基本用途以后的進(jìn)一步利用。
比如搜索關(guān)鍵詞,基本用途是可以通過(guò)消費(fèi)搜索關(guān)鍵詞來(lái)定向推送廣告,就是我們?cè)谔詫毨锩嫠阉麝P(guān)鍵詞以后,會(huì)收到猜你喜歡的物品提醒。
而他的再利用:根據(jù)客戶搜索關(guān)鍵詞的流量,來(lái)判斷哪款產(chǎn)品或哪種顏色會(huì)成為爆款。
重組數(shù)據(jù)
有的時(shí)候可能從某一組數(shù)據(jù)上看不出什么價(jià)值,我們需要把他和其他數(shù)據(jù)進(jìn)行組合以后,才能利用其價(jià)值。
比如,美國(guó)房地產(chǎn)網(wǎng)站Zillow.com將房地產(chǎn)信息和價(jià)格添加在美國(guó)社區(qū)地圖上,同時(shí)還壓縮了大量的信息,如社區(qū)近期的交易和物業(yè)價(jià)格,以此來(lái)預(yù)測(cè)區(qū)域內(nèi)具體每套住宅的價(jià)值。
可擴(kuò)展數(shù)據(jù)
促成數(shù)據(jù)再利用的方法之一是從一開(kāi)始就設(shè)計(jì)它的可擴(kuò)展性。收集多個(gè)數(shù)據(jù)流或每個(gè)數(shù)據(jù)流中更多數(shù)據(jù)點(diǎn)的額外成本往往較低,因此,收集盡可能多的數(shù)據(jù)并在一開(kāi)始的時(shí)候就考慮到其各種潛在的二次用途,使其具有擴(kuò)展性是非常有意義的。
比如:超市的攝像頭在一開(kāi)始的時(shí)候只是為了防止小偷,但事實(shí)上還可以跟蹤商店的客戶流和她們停留的位置??梢愿鶕?jù)這些信息來(lái)設(shè)計(jì)店面的最佳布局。
數(shù)據(jù)的折舊值
隨著時(shí)間的推移,可能一些比較久遠(yuǎn)的數(shù)據(jù)就會(huì)失去其原有的價(jià)值,在這種情況下,繼續(xù)依賴于舊的數(shù)據(jù)不僅不能增加價(jià)值,實(shí)際上還會(huì)破壞新數(shù)據(jù)的價(jià)值。
比如,十年前你在亞馬遜上買了一本書(shū),而現(xiàn)在你已經(jīng)完全對(duì)他不感興趣了,如果亞馬遜繼續(xù)使用這個(gè)數(shù)據(jù)來(lái)向你推薦其他書(shū)籍就會(huì)有些不合理。
數(shù)據(jù)廢氣
就是收集數(shù)據(jù)中的一些錯(cuò)誤值來(lái)進(jìn)行利用。
比如:搜索引擎的輸入法,有的時(shí)候你會(huì)發(fā)現(xiàn)你輸入的關(guān)鍵詞時(shí)錯(cuò)誤的,但是系統(tǒng)會(huì)彈出你想要的正確的結(jié)果。這就是數(shù)據(jù)廢氣所起的作用。搜素引擎后臺(tái)會(huì)收集每天后臺(tái)收到的錯(cuò)誤關(guān)鍵詞和用戶最終查找的正確關(guān)鍵詞的內(nèi)容。這樣以后一旦出現(xiàn)類似的錯(cuò)誤,系統(tǒng)就可以推送正確的內(nèi)容給用戶,匹配度很高。
3.角色定位—數(shù)據(jù)、技術(shù)、思維
根據(jù)所提供價(jià)值的不同來(lái)源,分別出現(xiàn)了三種大數(shù)據(jù)公司。這三種來(lái)源是指:數(shù)據(jù)本身、技能與思維。
第一種是基于數(shù)據(jù)本身的公司。這些公司擁有大量數(shù)據(jù)或至少可以收集到大量數(shù)據(jù),卻不一定有從數(shù)據(jù)中提取價(jià)值或用數(shù)據(jù)催生創(chuàng)新思想的技能。
第二種是基于技能的公司。他們通常是咨詢公司、技術(shù)創(chuàng)新或分析公司。他們掌握了專業(yè)技能但并不一定擁有數(shù)據(jù)或提出數(shù)據(jù)創(chuàng)新性用途的才能。
第三種是基于思維的公司。通過(guò)利用大數(shù)據(jù)思維提出一些創(chuàng)新性指導(dǎo)意見(jiàn)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03