
2016年全球關(guān)于大數(shù)據(jù)分析領(lǐng)域的大事記
2016年2月,紅極一時(shí)的BI和可視化工具提供商Tableau發(fā)布財(cái)報(bào),業(yè)績令人大失所望,其市值在一天之內(nèi)被腰斬。這預(yù)示著2016年的BI市場將動蕩不安。幾個(gè)月后,風(fēng)暴再起,Qlik Technologies的股價(jià)暴跌一半多,在2016年6月被Thoma Bravo以大約30億美元的價(jià)格收購。
Gartner表示,I市場已經(jīng)達(dá)到“臨界點(diǎn),需要我們從新的角度來思考”。AlphaGo系統(tǒng),在圍棋比賽中戰(zhàn)勝人類頂尖棋手。按照英偉達(dá)(Nvidia)一位產(chǎn)品經(jīng)理的話說,這場人機(jī)大戰(zhàn)堪稱AI技術(shù)的“宇宙大爆炸”時(shí)刻。從Siri和Alexa等AI驅(qū)動的聊天機(jī)器人,到自動駕駛汽車,無數(shù)消費(fèi)者漸漸意識到AI帶來的巨大好處。
2016年11月互聯(lián)網(wǎng)巨頭亞馬遜(Amazon)在AWS re:Invent大會上發(fā)布的Amazon AI。2016年11月互聯(lián)網(wǎng)巨頭亞馬遜(Amazon)在AWS re:Invent大會上發(fā)布的Amazon AI。
民意調(diào)查機(jī)構(gòu)未能就2016年6月的“英國脫歐”公投準(zhǔn)確評估選民情緒。如果說這還只是讓人感到意外的話,那么唐納德·特朗普(Donald Trump)在11月份的總統(tǒng)選舉中擊敗希拉里·克林頓(Hillary Clinton),與幾乎所有的政治民意調(diào)查結(jié)果截然相反(只有一項(xiàng)調(diào)查例外),則可以說是大數(shù)據(jù)分析在2016年甚至可能是近十年來的最大慘敗。
IdentityForce制作的“2016年網(wǎng)絡(luò)安全恥辱墻”上還包括:美國司法部(3萬名DHS和FBI職員的數(shù)據(jù)失竊);美國國稅局(70萬名納稅人的記錄泄露);威瑞森(150萬客戶的記錄泄露);甲骨文(33萬臺MICROS收銀機(jī)被入侵);Dropbox(承認(rèn)6,800萬個(gè)賬戶被入侵);AdultFriendFinder.com(4.12億用戶的記錄泄露)。
2016年剛剛過去,2017年已經(jīng)來臨。值此辭舊迎新之際,讓我們盤點(diǎn)一下2016年大數(shù)據(jù)分析領(lǐng)域發(fā)生的大事件,摸清過去一年的脈搏,展望未來一年的趨勢。
至少可以說,2016年是大數(shù)據(jù)風(fēng)起云涌的一年。沒人知道2017年將發(fā)生什么,但這不會阻止我們對新的一年作出各種預(yù)測。以下是最具有轟動效應(yīng)的一些項(xiàng)目、事件和趨勢,它們使2016年成為了大數(shù)據(jù)年。
商業(yè)智能(BI)領(lǐng)袖衰落
2016年2月,紅極一時(shí)的BI和可視化工具提供商Tableau發(fā)布財(cái)報(bào),業(yè)績令人大失所望,其市值在一天之內(nèi)被腰斬。這預(yù)示著2016年的BI市場將動蕩不安。幾個(gè)月后,風(fēng)暴再起,Qlik Technologies的股價(jià)暴跌一半多,在2016年6月被Thoma Bravo以大約30億美元的價(jià)格收購。
雖然Tableau和Qlik一直都是一流的工具,但它們曾經(jīng)一馬當(dāng)先的領(lǐng)先距離已經(jīng)大幅縮小,因?yàn)槲④?Microsoft)、Microstrategy、Alteryx、Birst、Domo、Sisense、Gooddata和其他公司紛紛推出了價(jià)格更低、性能強(qiáng)大的BI工具。市場調(diào)研公司Gartner的《2016年BI和分析平臺魔力象限》報(bào)告記錄了不少于24家公司(其中甚至還沒加上BI新星Zoomdata)。Gartner表示,BI市場已經(jīng)達(dá)到“臨界點(diǎn),需要我們從新的角度來思考”。
人工智能(AI)崛起
谷歌(Google)旗下的DeepMind公司開發(fā)了AlphaGo系統(tǒng),在圍棋比賽中戰(zhàn)勝人類頂尖棋手。按照英偉達(dá)(Nvidia)一位產(chǎn)品經(jīng)理的話說,這場人機(jī)大戰(zhàn)堪稱AI技術(shù)的“宇宙大爆炸”時(shí)刻。從Siri和Alexa等AI驅(qū)動的聊天機(jī)器人,到自動駕駛汽車,無數(shù)消費(fèi)者漸漸意識到AI帶來的巨大好處。
我們也看到了新的AI服務(wù)面世,包括2016年11月互聯(lián)網(wǎng)巨頭亞馬遜(Amazon)在AWS re:Invent大會上發(fā)布的Amazon AI。2016年10月,加州大學(xué)伯克利分校宣布,曾經(jīng)發(fā)明Apache Spark等多項(xiàng)大數(shù)據(jù)技術(shù)的AMPLab實(shí)驗(yàn)室將被替換為RISELab實(shí)驗(yàn)室,后者將致力于AI和自動駕駛汽車等應(yīng)用。這為AI正在吞沒和超越大數(shù)據(jù)概念的想法提供了更多佐證。
Hadoop十歲了
2016年1月底的一天是首個(gè)Hadoop生產(chǎn)集群在雅虎(Yahoo)誕生的十周年紀(jì)念日。雅虎工程師們最初只希望這個(gè)10節(jié)點(diǎn)的集群能夠持續(xù)運(yùn)行一整天,根本沒想到Hadoop后來會成為大數(shù)據(jù)計(jì)算的代表,每家財(cái)富100強(qiáng)企業(yè)必備的IT工具。
Hadoop的成功無疑超出了道格·卡丁(Doug Cutting)的期望,這位Cloudera公司架構(gòu)師和邁克·加法雷拉(Mike Cafarella)共同創(chuàng)造了Hadoop。在Strata + Hadoop World大會上一場廣泛性的演講中,卡丁說出了自己內(nèi)心的疑惑:我們是否已經(jīng)達(dá)到了“Hadoop頂峰”?未來十年的Hadoop會是什么樣子?考慮到大數(shù)據(jù)界對Hadoop第三版(將使存儲能力翻倍并引入糾刪碼)的開發(fā)興趣寥寥,大數(shù)據(jù)技術(shù)又發(fā)展神速,因此很難說2026年的Hadoop會是什么樣子,或者沒什么變化也說不定。
Apache Spark大行其道
作為經(jīng)濟(jì)實(shí)惠的分布式計(jì)算開源框架,Hadoop無疑引起了技術(shù)人士的關(guān)注,他們以前使用昂貴的專有軟件來處理龐大的數(shù)據(jù)集,費(fèi)錢又費(fèi)力。但如果說Hadoop的Java明星光環(huán)已經(jīng)開始淡去,那么正在取代它的則是另一項(xiàng)可能更有前途的技術(shù),那就是Apache Spark。
Apache Spark在大數(shù)據(jù)階梯上的極速躥升是一個(gè)非常值得注意的現(xiàn)象,不僅IBM等大公司紛紛擁抱該技術(shù),而且?guī)缀跛械腂I和可視化工具提供商都使用這項(xiàng)基于內(nèi)存的技術(shù)來進(jìn)行批處理、交互處理和流處理。有些人認(rèn)為,Spark在應(yīng)用和受歡迎程度方面終將超越Hadoop,甚至已經(jīng)超越。
Flink和Beam誕生
Spark基本上已經(jīng)取代了Hadoop的批處理引擎MapReduce,更別說Spark的SQL、機(jī)器學(xué)習(xí)和流處理能力。但永不滿足的大數(shù)據(jù)界希望改進(jìn)這套得到Databricks公司支持、用Scala語言編寫的多用途框架。于是Apache Flink和Apache Beam應(yīng)運(yùn)而生,成為了Spark在大數(shù)據(jù)框架之戰(zhàn)中的勁敵。
2016年3月,Cloudera公司的卡丁向Data Artisans公司的Flink項(xiàng)目表達(dá)了敬意。當(dāng)時(shí)他說:“Flink在架構(gòu)設(shè)計(jì)上可能要比Spark好上那么一點(diǎn)點(diǎn)?!迸c此同時(shí),基于谷歌Cloud Dataflow API的Apache Beam受到了Talend公司一位法國大數(shù)據(jù)架構(gòu)師的支持。Beam雄心勃勃,想要用同一組API統(tǒng)一所有的大數(shù)據(jù)應(yīng)用開發(fā),并通過“Runner”這種執(zhí)行引擎支持Spark、Flink和Google Dataflow。
歷史性的民調(diào)失靈
毫無疑問,當(dāng)今的政治民意調(diào)查已經(jīng)成為應(yīng)用統(tǒng)計(jì)(也就是“大數(shù)據(jù)分析”)的一個(gè)運(yùn)用領(lǐng)域。以前,嚴(yán)謹(jǐn)?shù)拿褚庹{(diào)查只需要通過白頁上的選民名字和電話號碼就可以進(jìn)行。但現(xiàn)在,民意調(diào)查機(jī)構(gòu)如果想從形形色色的選民中獲取具有代表性的樣本,就必須建立細(xì)致的權(quán)重模型。
民意調(diào)查機(jī)構(gòu)未能就2016年6月的“英國脫歐”公投準(zhǔn)確評估選民情緒。如果說這還只是讓人感到意外的話,那么唐納德·特朗普(Donald Trump)在11月份的總統(tǒng)選舉中擊敗希拉里·克林頓(Hillary Clinton),與幾乎所有的政治民意調(diào)查結(jié)果截然相反(只有一項(xiàng)調(diào)查例外),則可以說是大數(shù)據(jù)分析在2016年甚至可能是近十年來的最大慘敗。
大數(shù)據(jù)黑客入侵
數(shù)據(jù)明顯具有價(jià)值,無論保險(xiǎn)公司和會計(jì)師怎么說。所以壞人會想要竊取個(gè)人和企業(yè)的數(shù)據(jù)也真的去竊取了,完全不足為奇。2016年發(fā)生了多起引人注目的數(shù)據(jù)泄露事件,比如美國民主黨全國委員會的電子郵件服務(wù)器被攻陷,雅虎10億用戶的數(shù)據(jù)被黑。而這還沒算上雅虎曾在2016年9月承認(rèn),黑客入侵了該公司5億用戶的賬戶。
IdentityForce制作的“2016年網(wǎng)絡(luò)安全恥辱墻”上還包括:美國司法部(3萬名DHS和FBI職員的數(shù)據(jù)失竊);美國國稅局(70萬名納稅人的記錄泄露);威瑞森(150萬客戶的記錄泄露);甲骨文(33萬臺MICROS收銀機(jī)被入侵);Dropbox(承認(rèn)6,800萬個(gè)賬戶被入侵);AdultFriendFinder.com(4.12億用戶的記錄泄露)。
新的數(shù)據(jù)初創(chuàng)公司
2016年對大數(shù)據(jù)的風(fēng)險(xiǎn)投資較2015年減少了大約10%,但這沒有阻止科技創(chuàng)業(yè)者成立新公司,希望挖到大數(shù)據(jù)金礦。2016年的新來者包括:
SnappyData,致力于統(tǒng)一Spark和Pivotal的GemFire數(shù)據(jù)網(wǎng)格;
Panoply,為AWS Redshift 用戶開發(fā)ETL 軟件;
Cosmify,利用機(jī)器學(xué)習(xí)挖掘客戶信息;
Bonsai,這家AI公司在Strata + Hadoop World大會上贏得了創(chuàng)業(yè)展示比賽;
Armorway,利用深度學(xué)習(xí)實(shí)現(xiàn)網(wǎng)絡(luò)安全;
Leyvx,將Flash和Spark結(jié)合起來;
Jask,利用AI進(jìn)行網(wǎng)絡(luò)安全分析;
Alluvium,致力于縮小“機(jī)器與人”的差距;
Pachyderm,這家容器公司在Strata + Hadoop World大會上贏得創(chuàng)業(yè)展示比賽;
Skry,區(qū)塊鏈智能供應(yīng)商;
Wavefront,利用大數(shù)據(jù)來監(jiān)控IT。
實(shí)時(shí)Kafka
人人都喜歡的大數(shù)據(jù)總線Apache Kafka在2016年如魚得水,這要?dú)w功于對分析高速移動數(shù)據(jù)的新要求。Kafka才面世五年,但這部由LinkedIn開發(fā)的消息隊(duì)列系統(tǒng)已經(jīng)成為管理流數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)管道的事實(shí)標(biāo)準(zhǔn)。
Kafka由杰伊·克雷普斯(Jay Kreps)和尼哈·納赫德(Neha Narkhede)創(chuàng)造,得到了兩人領(lǐng)導(dǎo)的Confluent公司團(tuán)隊(duì)的支持,是2016年最受歡迎的大數(shù)據(jù)項(xiàng)目之一。由于人們對實(shí)時(shí)分析的興趣高漲,這個(gè)開源項(xiàng)目的采用率正在飆升。隨著批處理范式不斷與實(shí)時(shí)數(shù)據(jù)處理相融合,如果克雷普斯的Kappa架構(gòu)超越目前流行的Lambda架構(gòu),請不要感到驚訝。
開源數(shù)據(jù)項(xiàng)目
并非所有的大數(shù)據(jù)產(chǎn)品都是由盈利性企業(yè)開發(fā)。最有前途的新技術(shù)很多都是開源項(xiàng)目。2016年引人注目的開源大數(shù)據(jù)項(xiàng)目包括:
ApacheArrow:該項(xiàng)目由MapR Technologies公司的一位Drill架構(gòu)師帶頭,旨在建立一個(gè)通用數(shù)據(jù)層,兼容各種各樣的大數(shù)據(jù)工具和引擎,比如Drill、Spark、Impala、Cassandra和Parquet;
Alluxio:這是基于內(nèi)存的文件系統(tǒng)(原名Tachyon),與Apache Spark和Apache Mesos一樣,也出自AMPLab實(shí)驗(yàn)室,現(xiàn)在得到一家同名公司的支持;
ApacheBeam:這是很有前途的大數(shù)據(jù)框架,其目標(biāo)之一是用同一組API進(jìn)行實(shí)時(shí)交互的批處理,并且通過“Runner”支持Spark、Flink和Google Dataflow;
CrateDB:遵守Apache 2.0協(xié)議,是可擴(kuò)展的SQL數(shù)據(jù)庫(有些人稱之為NewSQL數(shù)據(jù)庫),用于實(shí)時(shí)機(jī)器分析;
ApacheKylin:這個(gè)基于Hadoop的開源引擎提供聯(lián)機(jī)分析處理(OLAP)能力,在2016年全年都是Apache軟件基金會(ASF)的頂級項(xiàng)目(TLP);
ApacheGeode:2016年11月,ASF把分布式內(nèi)存數(shù)據(jù)庫Geode 提升為TLP 級別。
大數(shù)據(jù)用于社會公益
現(xiàn)在,大數(shù)據(jù)分析已經(jīng)遍地開花,既存在于我們購買的產(chǎn)品中,也存在于我們使用的網(wǎng)絡(luò)服務(wù)和我們通信的方式中。但值此辭舊迎新之際,我們必須提醒自己要從人性的角度出發(fā),靜下心來好好想想如何終結(jié)人類的苦難。
為此,我們應(yīng)該看到大數(shù)據(jù)對社會進(jìn)步的積極作用,而不只是賺錢。在2016年,大數(shù)據(jù)被Polaris等團(tuán)體用來打擊人口販賣,把罪犯繩之于法。撰寫“巴拿馬文件”調(diào)查報(bào)告的記者使用云分析和圖形數(shù)據(jù)庫等大數(shù)據(jù)技術(shù),來剖析和披露離岸避稅行為。
大數(shù)據(jù)為公眾健康作出貢獻(xiàn)的例子不勝枚舉,包括美國疾病預(yù)防控制中心利用機(jī)器學(xué)習(xí)來阻止阿片類物質(zhì)引發(fā)的HIV爆發(fā),Spark和Hadoop加快癌癥研究,數(shù)據(jù)分析促使研究人員重新思考“干擾變量”對治療外傷性脊髓損傷意味著什么。
我們不知道2017年將為大數(shù)據(jù)世界帶來些什么。但如果和2016年一樣,那么我們將目睹那些改變著人類生活的核心技術(shù)遭遇意想不到的突破、令人震驚的失敗和穩(wěn)步的發(fā)展。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03