
什么是大數(shù)據(jù)_大數(shù)據(jù)師什么_數(shù)據(jù)分析師培訓(xùn)
《自然》雜志在2008年9月推出了名為“大數(shù)據(jù)”的封面專欄,講述了數(shù)據(jù)在數(shù)學(xué)、物理、生物、工程及社會(huì)經(jīng)濟(jì)等多學(xué)科扮演的愈加重要的角色,如今這個(gè)詞語近卻成了工商界和金融界的新寵。關(guān)于大數(shù)據(jù)的會(huì)議和論壇如雨后春筍層出不窮,但到底什么是大數(shù)據(jù),依然眾說紛紜。我們認(rèn)為,大數(shù)據(jù)具有規(guī)模大、價(jià)值高、交叉復(fù)用、全息可見四大特征!特別地,最后兩個(gè)特征體現(xiàn)了大數(shù)據(jù)不僅僅有“規(guī)模更大的數(shù)據(jù)”這種量上的進(jìn)步,還具有不同于以前數(shù)據(jù)組織和應(yīng)用形式的質(zhì)的飛躍。
數(shù)十年來,信息產(chǎn)生、組織和流通方式革命性的變化,其中個(gè)人用戶第一次成為信息產(chǎn)生和流通的主體。你上傳到flickr的一張照片規(guī)模大約一兆,上傳到YouTube的一個(gè)視頻恐怕有數(shù)十兆,你還通過電子郵件把這些照片和視頻發(fā)給了你的朋友,用QQ和MSN聊天,用手機(jī)打電話發(fā)短信,在電子商務(wù)網(wǎng)站的瀏覽和購物,用信用卡支付,發(fā)微博,打聯(lián)網(wǎng)游戲……這一切都將轉(zhuǎn)化為數(shù)據(jù)存儲(chǔ)在世界的各個(gè)角落。不論是產(chǎn)生的信息量,可以獲取的信息量,還是流通交換的信息量,都一直呈指數(shù)增長。僅僅十余年,很多企業(yè)爬過MB時(shí)代,走過GB時(shí)代,現(xiàn)在正被趕著跑過TB時(shí)代,去迎接PB時(shí)代。事實(shí)上,如中國移動(dòng)、聯(lián)通、電信這樣的移動(dòng)通訊運(yùn)營商,如谷歌、百度、阿里巴巴、騰迅、新浪這樣的大互聯(lián)網(wǎng)公司,如國家電網(wǎng)、交通運(yùn)輸部這樣的職能部門,每天數(shù)據(jù)的更新量已經(jīng)接近或達(dá)到了PB量級(jí)。數(shù)據(jù)規(guī)模巨大且持續(xù)保持高速增長是大數(shù)據(jù)的第一個(gè)特征。
數(shù)據(jù)規(guī)模爆炸性增長的同時(shí),數(shù)據(jù)產(chǎn)生的附加價(jià)值似乎沒有與之同步增長。有學(xué)者認(rèn)為數(shù)據(jù)價(jià)值的密度會(huì)隨著數(shù)據(jù)量增加而降低——這種悲觀的論調(diào)得不到任何必然性因果關(guān)系的支持。我們認(rèn)為,這種滯后情況的癥結(jié)在于缺乏從海量數(shù)據(jù)中挖掘價(jià)值的高效方法和技術(shù)人員。試想一組數(shù)據(jù)的價(jià)值如果是其規(guī)模的自然對(duì)數(shù),當(dāng)你從1GB的數(shù)據(jù)中掙到9塊錢,給你1PB的數(shù)據(jù),你只能掙到15塊錢。而如果該數(shù)據(jù)的價(jià)值和其規(guī)模成正比,那么1PB的數(shù)據(jù)可以給你帶來900萬元的價(jià)值。對(duì)于前者,我們實(shí)在慚愧稱其為大數(shù)據(jù),最多只算是“一大堆無用的數(shù)據(jù)”罷了。舉個(gè)例子,精確到小數(shù)點(diǎn)后幾億位的π值,其規(guī)模巨大價(jià)值巨小,如果還非要往萬億位、億億位上進(jìn)行計(jì)算和存儲(chǔ),恐怕是正好與大數(shù)據(jù)的理念背道而馳。{數(shù)據(jù)分析師培訓(xùn)}對(duì)于真正的大數(shù)據(jù),其價(jià)值的增長應(yīng)該正比于規(guī)模的增長,甚至快于規(guī)模的增長。
剛才兩個(gè)特征主要還是針對(duì)單一數(shù)據(jù),下面的兩個(gè)特征強(qiáng)調(diào)的是若干數(shù)據(jù)之間新的組織和應(yīng)用形式。如果每一個(gè)數(shù)據(jù)都是一個(gè)孤島,只能在其直接關(guān)聯(lián)的領(lǐng)域發(fā)揮自身的價(jià)值,那么這不是一個(gè)值得我們興奮和期待的新時(shí)代。我們要找到和實(shí)現(xiàn)數(shù)據(jù)之間一加一遠(yuǎn)大于二的價(jià)值,其間最關(guān)鍵的問題要發(fā)揮數(shù)據(jù)的外部性,譬如國家電網(wǎng)智能電表的數(shù)據(jù)可以用于估計(jì)房屋空置率,淘寶銷售數(shù)據(jù)可以用來判斷經(jīng)濟(jì)走勢,移動(dòng)通訊基站定位數(shù)據(jù)可以用于優(yōu)化城市交通設(shè)計(jì),微博上的關(guān)注關(guān)系和內(nèi)容信息可以利用于購物推薦和廣告推送……以用戶為中心,結(jié)合用戶在不同系統(tǒng)留下的數(shù)據(jù),充分利用個(gè)性化的數(shù)據(jù)挖掘技術(shù),是實(shí)現(xiàn)通過數(shù)據(jù)交叉而產(chǎn)生巨大價(jià)值的最可行的途徑之一。綜上,大數(shù)據(jù)要求數(shù)據(jù)能充分發(fā)揮其外部性并通過與某些相關(guān)數(shù)據(jù)交叉融合產(chǎn)生遠(yuǎn)大于簡單加和的巨大價(jià)值!
如果谷歌把每天超過1個(gè)PB更新的數(shù)據(jù)按照他們內(nèi)部約定的格式開放給一個(gè)三四個(gè)人組成的科研團(tuán)隊(duì)或者創(chuàng)業(yè)團(tuán)隊(duì),這種仁善之舉不會(huì)對(duì)這個(gè)團(tuán)隊(duì)有任何的幫助,因?yàn)樗麄儧]有針對(duì)這種量級(jí)的數(shù)據(jù)進(jìn)行檢索、抓取、計(jì)算、分析的能力。也許他們僅僅只對(duì)數(shù)據(jù)內(nèi)部的一個(gè)特定邏輯片段有興趣,但是他們沒有辦法知道這個(gè)邏輯片段位于這個(gè)數(shù)據(jù)的哪個(gè)位置,以及通過什么辦法獲取。想象一個(gè)披著盔甲的二維生物,其他二維生物無法看到它的內(nèi)部,但是我們作為三維人,卻可以通過第三個(gè)維度看到它所有的一切細(xì)節(jié)——低維物品對(duì)于高維生物而言是全息可見的。所以說,大數(shù)據(jù)規(guī)??梢院艽?,但是用起來應(yīng)該像操作一個(gè)“小數(shù)據(jù)”一樣簡單,這就要求數(shù)據(jù)組織地非常好,內(nèi)部的各種內(nèi)容及關(guān)聯(lián)清晰可見且容易調(diào)用獲取。一句話,一般研究人員和開發(fā)人員可以自如獲取數(shù)據(jù)的邏輯片段并進(jìn)行分析處理。
現(xiàn)在所流行的“大數(shù)據(jù)的4個(gè)V”,只是不痛不癢生搬硬套的無病呻吟,對(duì)于深入思考大數(shù)據(jù)時(shí)代的必然性和未來具有阻礙的作用,同時(shí)也庸俗化了大數(shù)據(jù)的意義!舉個(gè)例子,處理速度快絕對(duì)不是大數(shù)據(jù)的特征,而僅僅是互聯(lián)網(wǎng)信息服務(wù)的自身需求——10年以前沒有人談大數(shù)據(jù),互聯(lián)網(wǎng)用戶也不會(huì)苦等1個(gè)小時(shí)。那個(gè)時(shí)候數(shù)據(jù)量較小,但是實(shí)時(shí)計(jì)算的難度不比現(xiàn)在小,因?yàn)榇鎯?chǔ)計(jì)算能力差,亦沒有成熟的云計(jì)算架構(gòu)和充分的計(jì)算資源?,F(xiàn)在很多數(shù)據(jù),譬如用于交通規(guī)劃、宏觀經(jīng)濟(jì)分析、電力系統(tǒng)規(guī)劃、氣象預(yù)報(bào)的數(shù)據(jù),以及高能物理、等離子物理、基因工程等等實(shí)驗(yàn)數(shù)據(jù),都是最最典型的大數(shù)據(jù),而相關(guān)的計(jì)算工作,短的數(shù)小時(shí),長的可以達(dá)到數(shù)月數(shù)年,一樣價(jià)值巨大。顯然,1秒鐘算出來不是大數(shù)據(jù)的特征,而“算得越快越好”從人類有計(jì)算這件事情以來就沒有變化過,把它作為一個(gè)新時(shí)代的主要特征,完全是無稽之談。數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
CDA 精益業(yè)務(wù)數(shù)據(jù)分析:驅(qū)動(dòng)企業(yè)高效決策的核心引擎? 在數(shù)字經(jīng)濟(jì)時(shí)代,企業(yè)面臨著前所未有的數(shù)據(jù)洪流,如何從海量數(shù)據(jù)中提取有 ...
2025-07-15MySQL 無外鍵關(guān)聯(lián)表的 JOIN 實(shí)戰(zhàn):數(shù)據(jù)整合的靈活之道? 在 MySQL 數(shù)據(jù)庫的日常操作中,我們經(jīng)常會(huì)遇到需要整合多張表數(shù)據(jù)的場景 ...
2025-07-15Python Pandas:數(shù)據(jù)科學(xué)的瑞士軍刀? ? 在數(shù)據(jù)驅(qū)動(dòng)的時(shí)代,面對(duì)海量、復(fù)雜的數(shù)據(jù),如何高效地進(jìn)行處理、分析和挖掘成為關(guān)鍵。 ...
2025-07-15用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08