
什么是大數(shù)據(jù)問題
在我們看來,計(jì)算機(jī)科學(xué)經(jīng)常談的是對資源的管理。最典型的資源就是時(shí)間、空間、能量。數(shù)據(jù)在以前并沒有被認(rèn)為是一種資源,而是被認(rèn)為是一種使用資源的物品。但是,我們看到現(xiàn)在的數(shù)據(jù)已經(jīng)被認(rèn)為是一種資源,這是我們可以利用并從中獲得價(jià)值和知識的一種資源。我們將數(shù)據(jù)資源同我們所用的時(shí)間、空間資源結(jié)合在一起形成一個(gè)系統(tǒng),從而使我們做出適時(shí)的、節(jié)約成本、高質(zhì)量的決定和結(jié)論,因此我們必須以不同方式進(jìn)行權(quán)衡。但是數(shù)據(jù)資源和時(shí)間、空間資源有很大的不同。如果我給你更多的時(shí)間和空間你會(huì)更開心,但是數(shù)據(jù)卻不是這樣,并不是給你越多的數(shù)據(jù)你就會(huì)越開心。就像是你走進(jìn)一個(gè)公司,問他們你們最大的問題是什么,他們通常會(huì)說最大的問題就是數(shù)據(jù)太多了。目前來看,越來越多的數(shù)據(jù)會(huì)給我們帶來越來越大的麻煩。因此我們必須找到一個(gè)解決這個(gè)問題的辦法,一種是統(tǒng)計(jì)學(xué)的方式,另外一種是計(jì)算的方式。統(tǒng)計(jì)學(xué)方式可能更微妙,所以我們等一下花更多時(shí)間在上面。
1. 對復(fù)雜性的疑問比數(shù)據(jù)增長的速度更快;
一些數(shù)據(jù)科學(xué)家他們經(jīng)常談,在一個(gè)數(shù)據(jù)庫的表格中行代表人,而列是對人的特征記錄,基本的數(shù)據(jù)庫可能會(huì)有幾千個(gè)行--意味著有幾千個(gè)人的信息在一個(gè)數(shù)據(jù)庫里,然后你再收集每個(gè)人的基本信息,并不需要太多,比如個(gè)人的年齡、地址、高度、收入,這些數(shù)據(jù)足以讓你了解在這個(gè)數(shù)據(jù)庫中的每一個(gè)人。
現(xiàn)在我們來考慮數(shù)百萬的“行”,因?yàn)槲覀兇_實(shí)對每個(gè)人的個(gè)性和細(xì)節(jié)十分感興趣。比如說你是在天津居住,你喜歡邁克爾·杰克遜,你喜歡騎自行車,那么你患某種疾病的概率是多少等等,我們在數(shù)據(jù)庫中都有關(guān)于你的信息。所以我們看到有關(guān)人數(shù)的行數(shù)在不斷的增加,同時(shí)描述也更多,那么列數(shù)也在增加。有些我們還可以添加一些列,比如說這個(gè)人昨天吃了什么,他的音樂、讀書的偏好,還有他基因的特點(diǎn)等。但問題是我們不光對個(gè)人的列感興趣,我們對列的集合更感興趣。如果你生活在天津,你喜歡騎自行車,你最喜歡吃的水果是蘋果,這些都是具體的這些列的信息集合。
現(xiàn)在問題就是我們需要指數(shù)級的列和行增長的組合方式,隨著行數(shù)和列數(shù)的線性增長,我們考慮的數(shù)據(jù)就會(huì)呈指數(shù)倍的增加。我們來舉一個(gè)醫(yī)學(xué)方面的案例,把列設(shè)想成肝病的信息--1是有肝病,0是沒有肝??;但是有一些列所描述的情況能夠很好地預(yù)測肝病的發(fā)生。假設(shè)如果你喜歡在天津,喜歡騎自行車,喜歡吃香蕉,這樣的人就會(huì)得肝病。如果你這個(gè)時(shí)候去看醫(yī)生,醫(yī)生問你住在哪里,你說天津;醫(yī)生問你周末做什么,你說騎自行車;問你最喜歡吃的水果是什么,你說是香蕉,那么醫(yī)生就會(huì)告知你需要檢查一下肝臟。這當(dāng)然是個(gè)假設(shè)。任何指令集里面都需要看這些數(shù)據(jù),進(jìn)行論證,找到有意義的模式。但當(dāng)數(shù)據(jù)變得越來越大,找到有意義的模式和信息變得越來越難。所以,大數(shù)據(jù)并不是非常好的事情,并不是有更多的數(shù)據(jù)就會(huì)獲得更多的知識。大數(shù)據(jù)其實(shí)才是最大的麻煩。現(xiàn)在來看數(shù)據(jù)越來越難轉(zhuǎn)變成知識,如果我們想要獲得真正有意義的東西,我們需要采取一些行動(dòng)。我們統(tǒng)計(jì)學(xué)家非常擔(dān)心:我們應(yīng)當(dāng)如何消除噪音,真正得到里面所含的知識。統(tǒng)計(jì)學(xué)上的程序和算法,必須運(yùn)行在計(jì)算機(jī)上,.大的數(shù)據(jù)會(huì)花更多的時(shí)間運(yùn)行,使我們不能快速的做決策了。真正有大問題的時(shí)候,我們不知道如何解決和運(yùn)行統(tǒng)計(jì)的程序,做出快速的決策,因此我們發(fā)現(xiàn)了第二個(gè)解決方案。第一個(gè)是統(tǒng)計(jì)學(xué)上,第二個(gè)是計(jì)算方面。
2.大數(shù)據(jù)會(huì)導(dǎo)致在可接受的時(shí)間范圍內(nèi)復(fù)雜算法不能夠運(yùn)用
第二個(gè)就是計(jì)算方面,算法需要時(shí)間運(yùn)行,還要登錄、輸出等,需要幾秒鐘的決策,比如在線的拍賣需要幾秒鐘做決策,我們還需要給予一些數(shù)據(jù),比如說輸出的算法。當(dāng)數(shù)據(jù)變多,這種方法可能會(huì)完成不了,或者是需要很多的運(yùn)行時(shí)間,這是時(shí)我們要怎么做?要把這些數(shù)據(jù)舍棄掉嗎?舍棄的結(jié)果是什么?可能使我的數(shù)據(jù)庫空間增加,如果我不斷地刪除我的數(shù)據(jù)。我應(yīng)當(dāng)讓數(shù)據(jù)運(yùn)行慢一些,但是這樣就會(huì)使處理的時(shí)間過長。我們面臨很大的問題,我們將時(shí)間、空間與數(shù)據(jù)、不斷增長的數(shù)據(jù)規(guī)模結(jié)合在一起,如果沒有很好的處理這些大數(shù)據(jù)的擴(kuò)展算法。這確實(shí)是一個(gè)存在的問題,我認(rèn)為這個(gè)問題是根本且基礎(chǔ)的。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-15CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08