
未來五年內(nèi)將重塑大數(shù)據(jù)技術(shù)的五種趨勢(shì)
請(qǐng)大家不要再糾結(jié)于一塊磁盤能保存多少數(shù)據(jù)或者企業(yè)到底會(huì)不會(huì)采用Hadoop。關(guān)于大數(shù)據(jù)的真正問題在于,企業(yè)用戶將如何使用Hadoop、我們的系統(tǒng)到底能在智能化道路上走多遠(yuǎn)、我們又該如何保證這一切都處于控制之下。
過去幾年當(dāng)中,大數(shù)據(jù)技術(shù)已經(jīng)迎來長(zhǎng)足發(fā)展;從一個(gè)樂觀積極的流行詞匯變成人見人恨的疑難雜癥,關(guān)注重點(diǎn)也由純粹的數(shù)據(jù)規(guī)模轉(zhuǎn)向?qū)︻愋图八俣鹊淖非?。所謂大數(shù)據(jù)及其相關(guān)技術(shù)在經(jīng)歷了高度重視、詳細(xì)甄別以及吐故納新之后,實(shí)際成果很可能與我們的認(rèn)知存在較大差異。然而時(shí)至今日,我們正站在歷史的重要轉(zhuǎn)折點(diǎn)上、此前圍繞這一話題引發(fā)的各類爭(zhēng)論將最終帶來明確的結(jié)論。
如今自動(dòng)化與智能化已經(jīng)成為整個(gè)世界運(yùn)轉(zhuǎn)的新方向,這一趨勢(shì)在簡(jiǎn)化數(shù)據(jù)發(fā)掘工作的同時(shí)、也把智能化特性引入萬事萬物從移動(dòng)應(yīng)用到交通系統(tǒng)無所不包。大數(shù)據(jù)的大絕不是最終目標(biāo),各類新型處理模式的涌現(xiàn)旨在將日益增長(zhǎng)的數(shù)據(jù)交付量轉(zhuǎn)化為智能化成效。所謂分類也不是最終目標(biāo),它的意義在于幫助我們實(shí)現(xiàn)大規(guī)模數(shù)據(jù)量化的同時(shí)、更為深入了解我們身邊的世界。
在這樣的背景下,我們將借助本屆Structure Data大會(huì)這一平臺(tái)鉆研更多相關(guān)細(xì)節(jié)此次會(huì)議將于本月十九號(hào)在紐約拉開序幕,為期一周。在此期間,世界各地的技術(shù)巨頭、知名企業(yè)以及一部分最為睿智的新興企業(yè)都會(huì)派出發(fā)言代表與大家分享自己的真知灼見。他們將探討與大數(shù)據(jù)相關(guān)的各類話題,內(nèi)容涵蓋對(duì)抗販賣人口、Hadoop未來發(fā)展方向乃至人工智能前沿技術(shù)。
下面我將為大家?guī)砦易约阂恢痹陉P(guān)注的五大發(fā)展趨勢(shì),也許有助于各位提前把握會(huì)議發(fā)言人們的探討話題以及表述方向。如果大家有意參加此次會(huì)議,希望我的這篇展望文章能夠起到拋磚引玉的作用。
1. Hadoop以堅(jiān)定步伐發(fā)展為真正的平臺(tái)
Apache Hadoop也許仍然只是一套分布式文件系統(tǒng)、MapReduce也將繼續(xù)扮演執(zhí)行框架的角色,但Hadoop可絕不會(huì)這樣止步不前。歸功于YARN等各類通用性發(fā)展成果,Hadoop集群如今已經(jīng)能夠針對(duì)任意數(shù)量的不同工作負(fù)載運(yùn)行任意數(shù)量的不同執(zhí)行框架,同時(shí)充分發(fā)揮同一套底層存儲(chǔ)基礎(chǔ)設(shè)施所帶來的資源優(yōu)勢(shì)。舉例來說,面向ETL作業(yè)的MapReduce集群現(xiàn)在也可以同時(shí)充當(dāng)支撐機(jī)器學(xué)習(xí)的Spark集群、面向流處理的Storm集群以及針對(duì)交互式SQL的Tez集群。
從本質(zhì)上講,Hadoop已經(jīng)從一款面向特定任務(wù)的實(shí)用工具轉(zhuǎn)變?yōu)橐徽啄軌蛑С指黝悜?yīng)用程序的真正平臺(tái)。以Airbnb以及Twitter為代表的早期采用者已經(jīng)從這種新型用途當(dāng)中取得競(jìng)爭(zhēng)優(yōu)勢(shì),Cloudera、Hortonworks以及MapR等Hadoop方案供應(yīng)商也在自身產(chǎn)品中引入多種新功能并支持主流Hadoop用戶在某些情況下所需要的新型框架。Continuuity、Mortar Data以及WibiData等新興企業(yè)通過簡(jiǎn)化大數(shù)據(jù)應(yīng)用程序的方式加快了這一演化的進(jìn)程,同時(shí)也對(duì)一部分技術(shù)基礎(chǔ)進(jìn)行了開源化處理、從而為更多開發(fā)人員提供相關(guān)工具。
當(dāng)然,受到Hadoop向平臺(tái)轉(zhuǎn)化趨勢(shì)影響的絕不僅僅是開發(fā)人員,眾多軟件廠商也感受到了這股時(shí)代洪流。傳統(tǒng)數(shù)據(jù)倉庫、數(shù)據(jù)庫甚至統(tǒng)計(jì)軟件供應(yīng)商必須接受這一現(xiàn)實(shí),即Hadoop如今能夠幫助他們以更低的成本保存更多數(shù)據(jù)、同時(shí)以多種方式對(duì)其內(nèi)容進(jìn)行分析。
2.人工智能開始崛起
我們擁有計(jì)算設(shè)備、我們擁有數(shù)據(jù)、我們也擁有算法:因此,我們現(xiàn)在已經(jīng)擁有建立人工智能的技術(shù)基礎(chǔ)。請(qǐng)別誤會(huì),人工智能還不像科幻小說中描述的那樣恐怖、也無法真正取代人類的地位,但這項(xiàng)技術(shù)最終必將成為現(xiàn)實(shí)。由于機(jī)器學(xué)習(xí)方案的不斷進(jìn)步,我們已經(jīng)能夠通過智能手機(jī)進(jìn)行語音指令識(shí)別、擁有能夠預(yù)測(cè)用戶喜好的媒體服務(wù)、可以在數(shù)十億個(gè)數(shù)據(jù)點(diǎn)之間摸清關(guān)系脈絡(luò)的軟件以及善于挖掘潛在價(jià)值空間的應(yīng)用程序。
IBM的沃森系統(tǒng)已經(jīng)近在咫尺,足以為廚師們提供準(zhǔn)確的食譜配料清單。
展望未來,針對(duì)上述領(lǐng)域的深入學(xué)習(xí)將幫助我們的人工智能系統(tǒng)變得更加實(shí)用也更為強(qiáng)大。在復(fù)雜數(shù)據(jù)集當(dāng)中,這些模型能夠提取并識(shí)別出無法通過編程實(shí)現(xiàn)的深入分析途徑。在無人監(jiān)管的情況下,深入學(xué)習(xí)項(xiàng)目已經(jīng)能夠成功把握特定對(duì)象的外觀、將不同語言的詞匯加以映射甚至學(xué)會(huì)主機(jī)游戲的操作規(guī)則。幾乎就在一夜之間,眾多原本無法實(shí)現(xiàn)的任務(wù)如今似乎都擁有了可行的解決途徑例如能夠內(nèi)容標(biāo)注使其具備可搜索性,或者以出色的準(zhǔn)確性預(yù)測(cè)用戶的詞語表意以及接下來要輸入的內(nèi)容。
通過將新型內(nèi)容應(yīng)用在新領(lǐng)域當(dāng)中,這些方案完全有可能為我們帶來更為可觀的潛在價(jià)值。特定癌細(xì)胞聚集在一起會(huì)表現(xiàn)出怎樣的特性?我們能否幫助護(hù)士了解原本只有醫(yī)生能夠接觸到的信息?哪些原本無法準(zhǔn)確衡量的因素組合能夠反映出導(dǎo)致青少年自殺的原因?我們需要如何推動(dòng)自動(dòng)駕駛汽車與無人飛機(jī)進(jìn)入商業(yè)應(yīng)用領(lǐng)域?誠(chéng)然,人工智能并不是什么救世主,但它確實(shí)為我們展示出光明而且廣闊無垠的可能性。
3.為人們帶來分析能力
與真正的高難度基礎(chǔ)設(shè)施與普遍適用的算法相比,將數(shù)據(jù)分析推向標(biāo)準(zhǔn)化并使其成為易于實(shí)現(xiàn)的技能似乎并不算什么了不起的成就但這一趨勢(shì)仍然有可能給我們的社會(huì)帶來重大變革。只需為普通民眾提供以新型方式審視身邊數(shù)據(jù)的能力,就相當(dāng)于為我們的生活開啟了一扇通往無限可能的大門。
舉例來說,昨天我就利用免費(fèi)軟件為自己的iTunes媒體庫建立起一幅網(wǎng)絡(luò)圖形,并把斯諾登在最近一次采訪中所使用的幾個(gè)詞匯與國(guó)安局局長(zhǎng)Keith Alexander的發(fā)言進(jìn)行了一番比較。我并沒有用到數(shù)據(jù)科學(xué)或者深入學(xué)習(xí)技術(shù),但我仍然能夠完成較為簡(jiǎn)單的分析任務(wù)、而后對(duì)自己發(fā)現(xiàn)的有趣數(shù)據(jù)進(jìn)行審視。在此之前,我還曾經(jīng)映射過自己的Twitter粉絲、分析Gigaom網(wǎng)站各位作者發(fā)布的頭條、甚至對(duì)自己的食物攝入量以及鍛煉強(qiáng)度進(jìn)行了匯總。也許促使年輕人們積極以有趣的方式審視并分析自己的數(shù)據(jù)會(huì)有助于激勵(lì)數(shù)據(jù)技術(shù)專家們進(jìn)一步把相關(guān)方案推向民間誰說得準(zhǔn)呢?
而且隨著目前可供普通民眾使用的工具愈發(fā)先進(jìn)、我們所收集到的數(shù)據(jù)量日益拓展(其中包括來自健身器材、聯(lián)網(wǎng)汽車以及物聯(lián)網(wǎng)等來源的數(shù)據(jù)),這種對(duì)于自身的量化分析也將變得越來越重要。出于各種目的,我們自身正逐步成為數(shù)據(jù)輸入與算法輸出流程的重要組成部分。我們的個(gè)人數(shù)據(jù)將帶來方方面面的影響包括我們看到的廣告內(nèi)容以及收到的招聘信息而且這一切都將變得順理成章:每位用戶至少能夠了解到企業(yè)、機(jī)構(gòu)以及政府部門所掌握的小部分信息。
4. 云計(jì)算
早在三年前我就說過,云計(jì)算與大數(shù)據(jù)的發(fā)展路線必將交接、碰撞,而這一猜測(cè)也已經(jīng)成為現(xiàn)實(shí)只是實(shí)際影響范圍比我的預(yù)計(jì)更為廣泛。事實(shí)上,這場(chǎng)浩大融合帶來的最大影響幾乎沒有反映在Hadoop、商務(wù)智能套件或者任何其它分析軟件即服務(wù)方案的實(shí)際使用能力當(dāng)中。誠(chéng)然,這些趨勢(shì)讓新興企業(yè)及成熟公司能夠更輕松地將新型工作負(fù)載遷移到云環(huán)境當(dāng)中;但就我個(gè)人來說,云技術(shù)變革帶來的最大意義在于為原本艱深的計(jì)算機(jī)科學(xué)引入了民主化進(jìn)程。
我已經(jīng)強(qiáng)調(diào)過,目前一部分技術(shù)方案已經(jīng)以即服務(wù)形式供大家使用(主要通過API實(shí)現(xiàn)),而且這一陣營(yíng)仍在不斷壯大之中。如果大家身為一位開發(fā)人員,而且希望學(xué)習(xí)Hadoop以及Elastic MapReduce的使用方法,那么如今已經(jīng)有現(xiàn)成方案可供選擇。如果大家希望能接入某種服務(wù),例如IBM的沃森云或者M(jìn)indMeld API,并需要在自己的數(shù)據(jù)當(dāng)中借用其它算法所提供的人工智能層,現(xiàn)成方案同樣多種多樣。在谷歌以及Pinterestto Netflix等眾多廠商的支持下,上述大部分技術(shù)方案都將被逐步嵌入到我們所使用的服務(wù)當(dāng)中。
如果這些方案真的管用,而且能為開發(fā)人員帶來真正的智能化能力(這里所說的‘智能化’并非一般意義上的推薦功能,那更像是一種難以回避的瘟疫而非優(yōu)勢(shì)),那么即使是平平無奇的任務(wù)也足以為消費(fèi)者帶來超出預(yù)期的良好效果。相信很多朋友在了解食品采購(gòu)清單的具體條目之外,還希望搞清這些食材有哪些好處,如果部分食材暫時(shí)斷貨、我們還有哪些后備選項(xiàng)或者在哪里能以更低的價(jià)格買到同類貨品。在智能手機(jī)與其它計(jì)算設(shè)備所帶來的處理能力與數(shù)據(jù)容量的支持之下,經(jīng)過精心設(shè)計(jì)的應(yīng)用程序完全能夠把我們從AT&T信號(hào)塔處獲取到的信號(hào)轉(zhuǎn)化為實(shí)際收益。
5. 法律法規(guī)
最后,法律制度也將成為大數(shù)據(jù)發(fā)展過程中的潛在影響因素具體效果如何取決于大家的審視角度。就目前來看,仲裁者、立法者、監(jiān)管者甚至總統(tǒng)都在努力弄清收集到的這批龐大數(shù)據(jù)到底意味著什么,并以此為基礎(chǔ)勾勒出某種秩序草案。當(dāng)然,要在這條湍流當(dāng)中摸著石頭過河并非易事,在此過程中充分發(fā)揮所有競(jìng)爭(zhēng)優(yōu)勢(shì)更是難上加難。
在管理流程當(dāng)中,最為棘手的難題就是如何妥善保護(hù)消費(fèi)者的個(gè)人隱私;這部分信息擁有巨大挖掘潛力、足以顯著改善消費(fèi)者的實(shí)際體驗(yàn),但同時(shí)也會(huì)帶來侵犯?jìng)€(gè)人隱私的巨大風(fēng)險(xiǎn)。另外,大量宣傳資金也開始涌入這一新興領(lǐng)域。我們希望能以最劃算的價(jià)格買到食材或者新服飾,也希望能夠參與DNA測(cè)繪項(xiàng)目并拿到99美元的回報(bào)。但我們同時(shí)也需要確保自己提供的潛在敏感信息不會(huì)被泄露給他人或者出現(xiàn)在不應(yīng)出現(xiàn)的場(chǎng)合例如一臺(tái)公用計(jì)算機(jī)的滾動(dòng)廣告上。
這一點(diǎn)對(duì)于法律制定者以及其他起草法律框架、法規(guī)以及判例法的從業(yè)人士而言算是一項(xiàng)巨大挑戰(zhàn),他們需要保證消費(fèi)者在獲得正當(dāng)利益的同時(shí)避免遭遇隱私泄露。坦率地講,我不太相信他們能在不理解大數(shù)據(jù)技術(shù)及其指向的情況下制定出可行的方案,我也不相信大家會(huì)對(duì)這樣產(chǎn)生的結(jié)果感到滿意。
當(dāng)然,我們不希望Facebook、谷歌以及Geico等廠商對(duì)自己的全部數(shù)據(jù)進(jìn)行深入分析,但我們同樣不希望重新經(jīng)歷那段網(wǎng)站設(shè)計(jì)古怪難用、出租車干等不來、工作效率極其低下而且生活毫無個(gè)性化可言的悲慘歲月。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03