
大數(shù)據(jù)引起了變革 大數(shù)據(jù)時(shí)代來臨
當(dāng)今社會(huì)所獨(dú)有的一種新型能力:以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見。
1、震人心魄的數(shù)據(jù)
2003 年,人類第一次破譯人體基因密碼的時(shí)候,辛苦工作10年才完成了三十億對堿基對的排序;大約10年后,世界范圍內(nèi)的基因儀每15分鐘就可以完成同樣的工 作。在金融領(lǐng)域,美國股市每天的成交量高達(dá)70億股,而其中三分之二的交易都是郵件里在數(shù)學(xué)模型和算法之上的計(jì)算機(jī)程序自動(dòng)完成的。
在2007年,所有數(shù)據(jù)中只有7%是存儲(chǔ)在報(bào)紙、書籍、圖片等媒介上的模擬數(shù)據(jù),其余全部是數(shù)字?jǐn)?shù)據(jù);在2000年時(shí),數(shù)字存儲(chǔ)信息仍只占全球數(shù)據(jù)量的四分之一;當(dāng)時(shí),另外四分之三的信息都存儲(chǔ)在報(bào)紙、膠片、黑膠唱片和盒式磁帶這類媒介上。
2、大數(shù)據(jù)的精髓
大數(shù)據(jù)帶給我們的三個(gè)顛覆性觀念轉(zhuǎn)變:是全部數(shù)據(jù),而不是隨機(jī)采樣;是大體方向,而不是精確制導(dǎo);是相關(guān)關(guān)系,而不是因果關(guān)系。
A.不是隨機(jī)樣本,而是全體數(shù)據(jù):在大數(shù)據(jù)時(shí)代,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣(隨機(jī)采樣,以前我們通常把這看成是理所應(yīng)當(dāng)?shù)南拗?,但高性能的?shù)字技術(shù)讓我們意識到,這其實(shí)是一種人為限制);
B.不是精確性,而是混雜性:研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數(shù)據(jù)很少,所以我們必須盡可能精確地量化我們的記錄,隨著規(guī)模的擴(kuò)大,對精確度的癡迷將 減弱;擁有了大數(shù)據(jù),我們不再需要對一個(gè)現(xiàn)象刨根問底,只要掌握了大體的發(fā)展方向即可,適當(dāng)忽略微觀層面上的精確度,會(huì)讓我們在宏觀層面擁有更好的洞察 力;
C.不是因果關(guān)系,而是相關(guān)關(guān)系:我們不再熱衷于找因果關(guān)系,尋找因果關(guān)系是人類長久以來的習(xí)慣,在大數(shù)據(jù)時(shí)代,我們無須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系;相關(guān)關(guān)系也許不能準(zhǔn)確地告訴我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們這件事情正在發(fā)生。
3、大數(shù)據(jù)的核心是預(yù)測
大數(shù)據(jù)的核心就是預(yù)測,它通常被視為人工智能的一部分,或者更確切地說,被視為一種機(jī)器學(xué)習(xí)。大數(shù)據(jù)不是要教機(jī)器人像人一樣思考,而是把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性。
歷史上,因?yàn)橛涗?、?chǔ)存、分析數(shù)據(jù)的工具都不夠好,為了讓分析變得簡單,我們選擇了把數(shù)據(jù)量減少,統(tǒng)計(jì)學(xué)的一個(gè)目的就是用盡可能少的數(shù)據(jù)來證實(shí)盡可能重大的發(fā)現(xiàn)。
1、傳統(tǒng)抽樣的精確性
采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,但與樣本數(shù)量的增加關(guān)系不大,大致原因是當(dāng)樣本數(shù)量達(dá)到某個(gè)值后,我們從新個(gè)體身上得到的信息會(huì)越來越少,這與經(jīng)濟(jì)學(xué)中的邊際效應(yīng)類似。
2、 隨機(jī)采樣的問題
隨機(jī)采樣有一個(gè)很大的問題:人們只能從隨機(jī)采樣中得出事先設(shè)計(jì)好的問題的結(jié)果,調(diào)查得出的數(shù)據(jù)不可以重新分析以實(shí)現(xiàn)計(jì)劃之外的目的,而且一旦采樣過程中存在任何偏見,分析結(jié)果就會(huì)相去甚遠(yuǎn)。
3、樣本=總體
采 樣的目的就是用最少的數(shù)據(jù)得到最多的信息,當(dāng)我們可以獲得海量數(shù)據(jù)的時(shí)候,它就沒有什么意義了;生活中真正有趣的事情經(jīng)常藏匿在細(xì)節(jié)之中,而采樣分析卻無 法捕捉到這些細(xì)節(jié)(因?yàn)椴蓸硬荒艿玫接?jì)劃之外的東西);大數(shù)據(jù)建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上,所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。
執(zhí)迷于精確性是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物,只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能適用于傳統(tǒng)數(shù)據(jù)庫的,如果不能接受混亂,剩下的95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用。
1、小數(shù)據(jù)時(shí)代的精確性
在 “小數(shù)據(jù)時(shí)代”,人們收集、處理數(shù)據(jù)的能力有限,對“小數(shù)據(jù)”而言,最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量(收集信息的有限意味著細(xì)微錯(cuò)誤會(huì)被放 大,甚至有可能影響整個(gè)結(jié)果的準(zhǔn)確性)。人們創(chuàng)造了很多精確的系統(tǒng),這些系統(tǒng)試圖讓我們接受一個(gè)世界困乏而規(guī)整的慘象——假裝世間萬物都是整齊地排列的; 事實(shí)上現(xiàn)實(shí)是紛繁復(fù)雜的,天地間存在的事物也遠(yuǎn)遠(yuǎn)多于系統(tǒng)所設(shè)想的。
2、 我們要的是概率
我 們總是為了一個(gè)“答案”而活著,精確性似乎一直是我們生活的支撐,但認(rèn)為每個(gè)問題只有一個(gè)答案的想法是站不住腳的。“一個(gè)唯一的真理“的存在是不可能的, 而且追求這個(gè)唯一的真理是對注意力的分散。大數(shù)據(jù)也許是拯救我們的關(guān)鍵方法:大數(shù)據(jù)通常用概率說話,而不是板著“準(zhǔn)確無疑”的面孔。
在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。我們不再一味追求人們?yōu)槭裁催@么做,知道人們?yōu)槭裁催@么做可能是有用的,但這個(gè)問題目前并不是很重要,重要的是我們能通過大數(shù)據(jù)分析出人們的相關(guān)行為。
1、相關(guān)關(guān)系
相 關(guān)關(guān)系的核心是量化兩個(gè)數(shù)據(jù)值之間的數(shù)理關(guān)系:相關(guān)關(guān)系強(qiáng)是指當(dāng)一個(gè)數(shù)據(jù)值增加時(shí),另一個(gè)數(shù)據(jù)值很有可能也會(huì)隨之增加;相關(guān)關(guān)系弱就意味著當(dāng)一個(gè)數(shù)據(jù)值增 加時(shí),另一個(gè)數(shù)據(jù)值幾乎不會(huì)發(fā)生變化。相關(guān)關(guān)系通過識別有用的關(guān)聯(lián)物來幫助我們分析一個(gè)現(xiàn)象,而不是通過揭示其內(nèi)部的運(yùn)作機(jī)制。相關(guān)關(guān)系沒有絕對,只有可 能性。
2、人們的直接目的就是尋找因果關(guān)系
人 們的直接愿望就是了解因果關(guān)系,我們已經(jīng)習(xí)慣了信息的匱乏,故此亦習(xí)慣了在少量數(shù)據(jù)的基礎(chǔ)上進(jìn)行推理思考。以前我們用實(shí)驗(yàn)來證明因果關(guān)系,它是通過是否有 誘因來分別觀察所產(chǎn)生的結(jié)果是不是和真實(shí)情況相符。但是,凡事皆有因果的話,那么我們就沒有決定任何事的自由了。如果說我們做的每一個(gè)決定或者每一個(gè)想法 都是其他事情的結(jié)果,而這個(gè)結(jié)果又是由其他原因?qū)е碌?,以此循環(huán)往復(fù),那么就不存在人的自由意志這一說了——所有的生命軌跡都只是受到因果關(guān)系的控制了 ——這顯然是不正確的。
3、 相關(guān)關(guān)系和因果關(guān)系并不矛盾
相 關(guān)關(guān)系分析本身意義重大,同時(shí)它也為研究因果關(guān)系奠定了基礎(chǔ),通過找出可能相關(guān)的事物,我們可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的因果關(guān)系分析,如果存在因果關(guān)系的 話,我們再進(jìn)一步找出原因。在大多數(shù)情況下,一旦我們完成了對大數(shù)據(jù)的相關(guān)關(guān)系分析,而又不再滿足于僅僅知道“是什么”時(shí),我們就會(huì)繼續(xù)向更深層次研究因 果關(guān)系,找出背后的“為什么”。在小數(shù)據(jù)時(shí)代,我們會(huì)假象世界是怎么運(yùn)作的,然后通過收集和分析數(shù)據(jù)來驗(yàn)證這種假象;在大數(shù)據(jù)時(shí)代,我們會(huì)在數(shù)據(jù)的指導(dǎo)下 探索世界,不再受限于各種假想;我們的研究始于數(shù)據(jù),也因?yàn)閿?shù)據(jù)我們發(fā)現(xiàn)了以前不曾發(fā)現(xiàn)的聯(lián)系。
A.大量的數(shù)據(jù)意味著“理論的終結(jié)”:用一系列的因果關(guān)系來驗(yàn)證各種猜測的傳統(tǒng)研究范式已經(jīng)不實(shí)用了,如今它已經(jīng)被無需理論指導(dǎo)的相關(guān)關(guān)系研究所取代;
B.現(xiàn)在已經(jīng)是一個(gè)有海量數(shù)據(jù)的時(shí)代,應(yīng)用數(shù)學(xué)已經(jīng)取代了其他的所有學(xué)科工具,而且只要數(shù)據(jù)足夠,就能說明問題,如果你有一拍字節(jié)的數(shù)據(jù),只要掌握了這些數(shù)據(jù)之間的相關(guān)關(guān)系,一切就迎刃而解了;
C.“理論的終結(jié)”:所有的普遍規(guī)則都不重要了,重要的是數(shù)據(jù)分析,它可以揭示一切問題;但大數(shù)據(jù)并不意味著理論已死,因?yàn)榇髷?shù)據(jù)就是在理論的基礎(chǔ)上形成的。
在一個(gè)可能性和相關(guān)性占主導(dǎo)地位的世界里,專業(yè)性變得不那么重要了;行業(yè)并不會(huì)消失,但是他們必須與數(shù)據(jù)表達(dá)的信息進(jìn)行博弈。
1、 數(shù)據(jù)化:一切皆可量化
大數(shù)據(jù)的核心發(fā)展動(dòng)力來源于人類測量、記錄和分析世界的渴望。為了得到可量化的信息,我們要知道如何計(jì)量;為了數(shù)據(jù)化量化了的信息,我們要知道怎么記錄計(jì)量的結(jié)果。如今我們經(jīng)常把“數(shù)字化”和“數(shù)據(jù)化”這兩個(gè)概念搞混,但是對這兩個(gè)概念的區(qū)分實(shí)際上非常重要:
A.數(shù)據(jù)化:一種把現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^程;
B.數(shù)字化:把模擬數(shù)據(jù)轉(zhuǎn)換成0和1表示的二進(jìn)制碼;
數(shù)字化帶來了數(shù)據(jù)化,但是數(shù)字化無法取代數(shù)據(jù)化;數(shù)字化是把模擬數(shù)據(jù)變成計(jì)算機(jī)課讀的數(shù)據(jù),和數(shù)據(jù)化有著本質(zhì)的不同。
2、當(dāng)方位變成了數(shù)據(jù)
1978 年見證了一個(gè)偉大的轉(zhuǎn)變,當(dāng)時(shí)構(gòu)成全球定位系統(tǒng)(GPS)的24顆衛(wèi)星第一次發(fā)射成功,通過與技術(shù)手段的融合,全球定位系統(tǒng)能夠快速、相對低價(jià)地進(jìn)行地理 定位,而且不需要任何專業(yè)知識。地理位置信息匯集起來,可能會(huì)揭示事情的發(fā)展趨勢;位置信息一旦被數(shù)據(jù)化,新的用途就猶如雨后春筍般涌現(xiàn)出來,而新價(jià)值也 會(huì)隨之不斷催生。
3、 當(dāng)溝通變成數(shù)據(jù)
社交網(wǎng)絡(luò)平臺不僅給我們提供了尋找和維持朋友、同事關(guān)系的場所,也將我們?nèi)粘I畹臒o形元素提取出來,再轉(zhuǎn)化為可作新用途的數(shù)據(jù)。數(shù)據(jù)化不僅能將態(tài)度和情緒轉(zhuǎn)變?yōu)橐环N可分析的形式,也可能轉(zhuǎn)化人類的行為,這些行為難以跟蹤,特別是在廣大的社區(qū)和其中的子人群環(huán)境中。
A.Facebook將關(guān)系數(shù)據(jù)化——社交關(guān)系在過去一直被視作信息而存在,但從未被正式界定為數(shù)據(jù),直到Facebook“社交圖譜”的出現(xiàn);
B.Twitter通過創(chuàng)新,讓人們能輕易記錄以及分享他們零散的想法,從而使情緒數(shù)據(jù)化得以實(shí)現(xiàn)。
4、“取之不盡,用之不竭“的數(shù)據(jù)創(chuàng)新
盡 管數(shù)據(jù)長期以來一直是有價(jià)值的,但通常只是被視作附屬企業(yè)經(jīng)營核心業(yè)務(wù)的一部分,或者被歸入知識產(chǎn)權(quán)或個(gè)人信息中相對狹窄的類別,但在大數(shù)據(jù)時(shí)代,所有數(shù)據(jù)都是有價(jià)值的。我們的時(shí)代,數(shù)據(jù)收集不再存在固有的局限性,由于存儲(chǔ)成本的大幅下降,保存數(shù)據(jù)比丟棄數(shù)據(jù)更加容易,這使得以較低成本獲得更多數(shù)據(jù)的可能 性比以往任何時(shí)候都大。不同于物質(zhì)性的東西,數(shù)據(jù)的價(jià)值不會(huì)隨著它的使用而減少,而是可以不斷地被處理,信息不會(huì)像其他物質(zhì)產(chǎn)品一樣隨著使用而有所損耗。 數(shù)據(jù)的價(jià)值并不僅限于特定的用途,它可以為了同一目的而被多次使用,也可用于其他目的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07