
關(guān)于大數(shù)據(jù)的十個(gè)有力事實(shí)_數(shù)據(jù)分析師考試
無論大家如何進(jìn)行定義,大數(shù)據(jù)自誕生之日起就飽受爭(zhēng)議——既有毛病之詞,亦不乏詆毀之聲。大數(shù)據(jù)對(duì)于很多人來說包含有重要的意義,特別是科學(xué)家和零售商家。不過這項(xiàng)技術(shù)的出現(xiàn)也引發(fā)了大量的相關(guān)隱私問題與安全威脅。
到底是救世主、騙局抑或二者兼而有之?無論如何,大數(shù)據(jù)仍然在技術(shù)專家、趨勢(shì)分析師、市場(chǎng)推廣人士以及安全從業(yè)者群體中擁有極高的熱度與人氣。事實(shí)上,截至 今天大數(shù)據(jù)仍然沒有一個(gè)受到普遍認(rèn)同的官方定義。那么大數(shù)據(jù)到底是什么?維基百科給出的描述可以說為大數(shù)據(jù)的概念確立之路開了個(gè)好頭:“任何由于規(guī)模龐大 且高度復(fù)雜而難以通過現(xiàn)有數(shù)據(jù)庫管理工具或者傳統(tǒng)數(shù)據(jù)處理應(yīng)用進(jìn)行處理的數(shù)據(jù)集?!?/span>
雖然管理這種規(guī)模龐大、形式多變 且對(duì)速度要求較高(這三點(diǎn)也就是經(jīng)典的3V定義)的數(shù)據(jù)集確實(shí)充滿挑戰(zhàn),不過目前針對(duì)這類任務(wù)的數(shù)據(jù)共享設(shè)備的數(shù)量正呈現(xiàn)指數(shù)級(jí)增長(zhǎng)的趨勢(shì),而這又給大數(shù) 據(jù)難題帶來更多別樣的變化。這類硬件被統(tǒng)稱為物聯(lián)網(wǎng),其中包括機(jī)器傳感器以及面向普通消費(fèi)者的設(shè)備,例如聯(lián)網(wǎng)溫控器、電燈泡、冰箱以及可穿戴式健康監(jiān)測(cè)工 具等。IDC公司預(yù)計(jì),物聯(lián)網(wǎng)市場(chǎng)在未來幾年當(dāng)中將迅猛增長(zhǎng)——其單位安裝數(shù)量將由2013年年底的91億增長(zhǎng)到2020年的281億。
企業(yè)則將來自大數(shù)據(jù)的可行性分析結(jié)論視為潛在的利好消息,這不僅是因?yàn)榇祟惤Y(jié)論能夠幫助商家售出更多工具及服務(wù),同時(shí)也可以更好地處理醫(yī)療事務(wù)、阻止偽劣藥 品流通、追蹤恐怖分子甚至監(jiān)控特定目標(biāo)的通話內(nèi)容。因此,大數(shù)據(jù)本身并沒有善惡之分,真正起決定作用的還是我們的實(shí)際使用方式。
具有諷刺意味的是,盡管大數(shù)據(jù)當(dāng)中蘊(yùn)藏著提升人類經(jīng)驗(yàn)的潛在可能性,但這些寶貴的信息卻往往很難進(jìn)行收集、篩選、分析以及最后的解釋。今天的文章著重審視大 數(shù)據(jù)領(lǐng)域的挑戰(zhàn)與機(jī)遇,這些事實(shí)與論證數(shù)據(jù)很可能給各位帶來意外驚喜。哪些內(nèi)容值得期待?這個(gè)嘛,作為大數(shù)據(jù)平臺(tái)中的領(lǐng)導(dǎo)者,Hadoop的發(fā)展前景一片 光明。而且數(shù)據(jù)科學(xué)家與大數(shù)據(jù)相關(guān)技術(shù)人士也將在未來幾年中獲得豐厚的薪酬回報(bào)。
業(yè)內(nèi)人士作出預(yù)測(cè),認(rèn)為“大數(shù)據(jù)” 作為流行詞匯將徹底消失。“一切的一切最終都會(huì)被歸結(jié)為數(shù)據(jù),僅此而已。大數(shù)據(jù)與所有以此為基礎(chǔ)的預(yù)測(cè)行為都將成為由分析師以及眾多‘大型’技術(shù)供應(yīng)商負(fù) 責(zé)的‘?dāng)?shù)據(jù)管理’工作,”Hortonworks公司總裁Herb Cunitz在2012年12月的一篇博文中寫道。
Cunitz作出的“大數(shù)據(jù)”概念消亡預(yù)測(cè)可能為時(shí)過早,他提出了很重要的一項(xiàng)結(jié)論,即一切的一切最終都會(huì)被歸結(jié)為數(shù)據(jù)。只有管理這些信息所必需的工具會(huì)迎來變革。現(xiàn)在就請(qǐng)大家跟隨我們的腳步,一同通過圖文了解與大數(shù)據(jù)緊密相關(guān)的統(tǒng)計(jì)及研究成果。
大多數(shù)企業(yè)估算稱,他們只對(duì)自身持有的約12%數(shù)據(jù)進(jìn)行了分析,F(xiàn)orrester研究公司在最近的一項(xiàng)調(diào)查中發(fā)現(xiàn)。這到底是好消息還是壞消息?這個(gè)嘛,被 他們所忽略的88%數(shù)據(jù)當(dāng)中很可能蘊(yùn)藏著足以帶來數(shù)據(jù)驅(qū)動(dòng)結(jié)論的寶貴信息。但從另一個(gè)角度看,他們也許明智地避免了由所謂“煮沸海洋”戰(zhàn)略所帶來的巨大資 源消耗。說起企業(yè)忽略絕大多數(shù)自有數(shù)據(jù)的理由,原因主要有兩點(diǎn):第一是缺乏相關(guān)分析工具與“可控制”數(shù)據(jù)倉(cāng)庫,第二則在于他們很難確切了解哪些信息能夠?qū)?現(xiàn)價(jià)值、哪些則最好加以忽略,F(xiàn)orrester公司在報(bào)告中指出。
大數(shù)據(jù)掀起的狂潮對(duì)于具備特定技能的從業(yè)人員來說不啻為一大福音。根據(jù) Dice網(wǎng)站(一家專門服務(wù)于技術(shù)及工程專業(yè)人才的求職網(wǎng)站)的統(tǒng)計(jì),目前業(yè)界對(duì)于數(shù)據(jù)專家的需求正持續(xù)激增。與上一年相比,目前針對(duì)NoSQL技術(shù)人員 的招聘崗位數(shù)量增長(zhǎng)了54%,而面向“大數(shù)據(jù)人才”的崗位也上漲了46%,該網(wǎng)站在今年四月的報(bào)告中指出。雖然這樣的提升幅度令人印象深刻,不過與網(wǎng)絡(luò)安 全專家的職位需求相比仍然是小巫見大巫——后者的同比增長(zhǎng)幅度高達(dá)162%。
在未來六年當(dāng)中,數(shù)字化領(lǐng)域的數(shù)據(jù)問題將由目前的3.2 ZB(即澤字節(jié))增長(zhǎng)到40 ZB。(1 ZB基本相當(dāng)于10億TB。)“當(dāng)我們審視即將席卷而來的數(shù)據(jù)量時(shí),其龐大的規(guī)模真的很令人興奮,”Hortonworks公司CEO Rob Bearden在今年于加利福尼亞州圣何塞舉辦的2014 Hadoop峰會(huì)上表示?!皬默F(xiàn)在到2020年,企業(yè)所持有的數(shù)量問題將以每年50倍的速度遞增。我認(rèn)為目前最重要的任務(wù)在于清醒地認(rèn)識(shí)到,其中85%的 數(shù)據(jù)來自新興網(wǎng)絡(luò)數(shù)據(jù)源?!卑ㄒ苿?dòng)、社交媒體以及Web與機(jī)器生成數(shù)據(jù)在內(nèi)的這些新興數(shù)據(jù)源將給全球企業(yè)帶來重大挑戰(zhàn)與不可錯(cuò)過的發(fā)展機(jī) 遇,Bearden指出。
大數(shù)據(jù)相關(guān)崗位的薪酬相當(dāng)突出。根據(jù)Burtch Works公司發(fā)布的2014年4月數(shù)據(jù)科學(xué)家薪酬報(bào)告,2014年數(shù)據(jù)科學(xué)家職位的基礎(chǔ)薪酬為每年12萬美元,相關(guān)管理崗位則為每年16萬美元。這一結(jié) 論以Burtch Works就業(yè)數(shù)據(jù)庫的分析為基礎(chǔ),涉及超過170位數(shù)據(jù)科學(xué)家在采訪中的意見反饋。對(duì)于范疇更為廣泛的大數(shù)據(jù)相關(guān)專業(yè)人士而言,也就是那些“利用復(fù)雜的 定量分析技術(shù)對(duì)事務(wù)、相互作用或者其它人為因素進(jìn)行數(shù)據(jù)化描述、從而得出結(jié)論及對(duì)應(yīng)方案的從業(yè)者”,其整體薪酬同樣實(shí)現(xiàn)了顯著提升。這類工作人員在 2013年獲得的平均薪酬水平在每年9萬美元左右,而相關(guān)管理崗位則開出了每年14.5萬美元這一令人艷羨的平均工資。
大多數(shù)IT專家表示他們還沒有開始為物聯(lián)網(wǎng)時(shí)代的來臨進(jìn)行準(zhǔn)備。Spiceworks公司今年四月對(duì)440位IT專業(yè)人士進(jìn)行了調(diào)查,了解他們?nèi)绾慰创锫?lián) 網(wǎng)并有針對(duì)性地推進(jìn)前期準(zhǔn)備工作。其中62%的受訪者來自北美地區(qū),38%則來自EMEA(即歐洲、中東以及非洲)地區(qū)。超過一半(59%)的受訪者指 出,他們還沒有采取具體的步驟來處理未來產(chǎn)生自傳感器、攝像頭以及其它各類物聯(lián)網(wǎng)設(shè)備的海量數(shù)據(jù)。不過調(diào)查還發(fā)現(xiàn),也有相當(dāng)一部分IT專業(yè)人士開始切實(shí)籌 備物聯(lián)網(wǎng)相關(guān)事宜,包括向基礎(chǔ)設(shè)施、安全、應(yīng)用以及分析機(jī)制進(jìn)行投資,并同時(shí)擴(kuò)大數(shù)據(jù)傳輸帶寬。
2012 年10月《哈佛商業(yè)評(píng)論》發(fā)布了一篇抓人眼球的報(bào)道,其中將數(shù)據(jù)科學(xué)相關(guān)工作稱為“二十一世紀(jì)最性感的工作崗位”。這種說法存在一定爭(zhēng)議,不過如果把“性 感”當(dāng)成是需求的代名詞則更容易理解,這是指數(shù)據(jù)科學(xué)家仍然擁有旺盛的市場(chǎng)需求。根據(jù)全球IT職業(yè)介紹服務(wù)供應(yīng)商Modis的統(tǒng)計(jì),目前數(shù)據(jù)科學(xué)家仍然處 于“需求高企但供應(yīng)不足”的階段,換言之與大數(shù)據(jù)相關(guān)的博士學(xué)位持有者年平均薪酬都能超過六位數(shù)。
數(shù)據(jù)倉(cāng)庫業(yè)界是否該為Hadoop的迅速崛起而感到擔(dān)憂甚至恐慌?抑或是該向其敞開熱情的懷抱?Cloudera公司的Doug Cutting與Hortonworks公司的Arun Murthy作為Hadoop領(lǐng)域的兩位先驅(qū)者,在本屆Hadoop 2014峰會(huì)的問答環(huán)節(jié)中提出了這樣的問題。盡管很多企業(yè)開始將數(shù)據(jù)倉(cāng)庫中的工作負(fù)載遷移到Hadoop環(huán)境當(dāng)中,但這種作法仍然沒有成為主流。但未來情 況是否會(huì)有變化?“如果相當(dāng)比例的用戶不再增加數(shù)據(jù)倉(cāng)庫的規(guī)模,反而由于發(fā)現(xiàn)了Hadoop類系統(tǒng)在處理效率與負(fù)擔(dān)成本方面的優(yōu)勢(shì)而對(duì)數(shù)據(jù)倉(cāng)庫方案進(jìn)行投 資或者規(guī)模縮減處理,那我認(rèn)為這確實(shí)應(yīng)該算作一種威脅,”Cutting解釋道。
對(duì)于隱私與安全漏洞的擔(dān)憂與看似無窮無盡的問題解決道路不可能阻止大數(shù)據(jù)的發(fā)展進(jìn)程?!督?jīng)濟(jì)學(xué)家》在今年六月的一篇報(bào)道中指出,“沒有證據(jù)表明隱私問題會(huì)給 數(shù)據(jù)的使用以及存儲(chǔ)方式帶來根本性轉(zhuǎn)變?!盙artner公司分析師Carsten Casper在接受該雜志采訪時(shí)表示,IT領(lǐng)域并沒有醞釀一場(chǎng)“隱私大革命”。而且盡管企業(yè)用戶始終在就隱私相關(guān)問題提出更多要求,但其中九成查詢其實(shí)指 向的都是本地?cái)?shù)據(jù)中心,Casper補(bǔ)充稱。
從2013年到2018年,全球軟件市場(chǎng)的年度復(fù)合增長(zhǎng)率將在6%上下浮動(dòng),研究企業(yè)IDC公司預(yù)測(cè)稱。不過大數(shù)據(jù)相關(guān)門類,包括協(xié)作應(yīng)用程序與數(shù)據(jù)訪問、分析與交付解決方案以及結(jié)構(gòu)化數(shù)據(jù)管理軟件,將在未來五年內(nèi)迎來更高的年度復(fù)合增長(zhǎng)水平(約為9%),IDC指出。
對(duì)于社交媒體的進(jìn)一步關(guān)注也將有助于這種增長(zhǎng)趨勢(shì)的持續(xù)?!吧缃幻襟w關(guān)注度與面向大數(shù)據(jù)及分析解決方案的需求增長(zhǎng)可謂互相依托,二者將幫助企業(yè)理解并切實(shí)推 進(jìn)對(duì)于客戶行為的預(yù)期以及與產(chǎn)品可靠性及維護(hù)相關(guān)的新思路,”IDC公司分析師Herny Morris在一份聲明中表示。
物聯(lián)網(wǎng)將包含眾多千奇百怪但又精妙非常的設(shè)備,其中很多對(duì)于大數(shù)據(jù)領(lǐng)域來說都是前所未見的新鮮事物。有鑒于此,ABI研究公司的分析師們預(yù)計(jì)到2020年,全球無線聯(lián)網(wǎng)設(shè)備總量將超過300億。其中醫(yī)療相關(guān)數(shù)據(jù)收集方案將在物聯(lián)網(wǎng)時(shí)代下扮演重要角色。
下面我們來看一個(gè)獨(dú)特的例子:微軟與來自羅切斯特大學(xué)(紐約)以及南安普敦大學(xué)(英國(guó))的研究人員們共同設(shè)計(jì)出一款智能紋胸,能夠借助傳感器檢測(cè)穿著者的心 跳與皮膚活性、從而計(jì)算出其壓力水平,BBC報(bào)道稱。這款紋胸能夠收集數(shù)據(jù)并將其發(fā)送至智能手機(jī)端的應(yīng)用程序,從而利用穿戴式技術(shù)掌握用戶的壓力水平,進(jìn) 而幫助其擺脫由壓力引發(fā)的暴飲暴食、保持良好的飲食習(xí)慣。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
用 SQL 生成逆向回滾 SQL:數(shù)據(jù)操作的 “后悔藥” 指南? 在數(shù)據(jù)庫操作中,誤刪數(shù)據(jù)、錯(cuò)改字段或誤執(zhí)行批量更新等問題時(shí)有發(fā)生。 ...
2025-07-14如何考取數(shù)據(jù)分析師證書:以 CDA 為例? ? 在數(shù)字化浪潮席卷各行各業(yè)的當(dāng)下,數(shù)據(jù)分析師已然成為企業(yè)挖掘數(shù)據(jù)價(jià)值、驅(qū)動(dòng)決策的 ...
2025-07-14t檢驗(yàn)與Wilcoxon檢驗(yàn)的選擇:何時(shí)用t.test,何時(shí)用wilcox.test? t 檢驗(yàn)與 Wilcoxon 檢驗(yàn)的選擇:何時(shí)用 t.test,何時(shí)用 wilcox. ...
2025-07-14AI 浪潮下的生存與進(jìn)階: CDA數(shù)據(jù)分析師—開啟新時(shí)代職業(yè)生涯的鑰匙(深度研究報(bào)告、發(fā)展指導(dǎo)白皮書) 發(fā)布機(jī)構(gòu):CDA數(shù)據(jù)科 ...
2025-07-13LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07