
大數(shù)據(jù)會與深度學(xué)習(xí)劃等號么_數(shù)據(jù)分析師
2014年12月12-14日,由中國計算機(jī)學(xué)會(CCF)主辦,CCF大數(shù)據(jù)專家委員會承辦,中科院計算所與CSDN共同協(xié)辦,以推進(jìn)大數(shù)據(jù)科研、應(yīng)用與產(chǎn)業(yè)發(fā)展為主旨的2014中國大數(shù)據(jù)技術(shù)大會(Big Data Technology Conference 2014,BDTC 2014)暨第二屆CCF大數(shù)據(jù)學(xué)術(shù)會議在北京新云南皇冠假日酒店盛大開幕。
近年來,國內(nèi)外互聯(lián)網(wǎng)公司和傳統(tǒng)企業(yè)大都已經(jīng)意識到數(shù)據(jù)資產(chǎn)化和規(guī)?;瘞淼臐撛趦r值,如何低成本且高效率地存儲和處理數(shù)百TB乃至EB量級的數(shù)據(jù)成為極大挑戰(zhàn)。“向數(shù)據(jù)要價值”使得幾乎每個行業(yè)都面臨著大數(shù)據(jù)問題?!按髷?shù)據(jù)”引發(fā)了新一輪IT“工業(yè)革命”。
程學(xué)旗發(fā)布2015年大數(shù)據(jù)發(fā)展趨勢預(yù)測
中科院計算所研究員,CCF大數(shù)據(jù)專家委員會秘書長程學(xué)旗在會上發(fā)表了大數(shù)據(jù)白皮書與發(fā)展趨勢報告。《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(2014年)》主要介紹了大數(shù)據(jù)的背景與動態(tài),大數(shù)據(jù)典型應(yīng)用,大數(shù)據(jù)技術(shù)進(jìn)展,大數(shù)據(jù)IT產(chǎn)業(yè)鏈與生態(tài)環(huán)境,以及大數(shù)據(jù)發(fā)展趨勢與建議等內(nèi)容。同時對于2015年大數(shù)據(jù)發(fā)展趨勢預(yù)測,程學(xué)旗總結(jié)為這幾個詞:融合、跨界、基礎(chǔ)、突破。
一、結(jié)合智能計算的大數(shù)據(jù)分析成為熱點(diǎn),包括大數(shù)據(jù)與神經(jīng)計算、深度學(xué)習(xí)、語義計算以及人工智能其他相關(guān)技術(shù)結(jié)合,成為大數(shù)據(jù)分析領(lǐng)域的熱點(diǎn)。
二、數(shù)據(jù)科學(xué)帶動多學(xué)科融合,隨著社會的數(shù)字化程度逐步加深,越來越來多的學(xué)科在數(shù)據(jù)層面趨于一致??梢圆捎孟嗨频乃枷雭磉M(jìn)行的統(tǒng)一的研究。
三、跨學(xué)科領(lǐng)域交叉的數(shù)據(jù)融合分析與應(yīng)用將成為今后大數(shù)據(jù)分析應(yīng)用發(fā)展的重大趨勢。
四、大數(shù)據(jù)將與物聯(lián)網(wǎng)、移動互聯(lián)、云計算、社會計算、等熱點(diǎn)技術(shù)領(lǐng)域相互交叉融合,產(chǎn)生很多綜合性應(yīng)用。物聯(lián)網(wǎng)與移動計算加強(qiáng)了與物理世界和人的融合,大數(shù)據(jù)和云計算加強(qiáng)了后端的數(shù)據(jù)存儲管理和計算能力。
五、大數(shù)據(jù)多樣化處理模式與軟硬件基礎(chǔ)設(shè)施逐步夯實(shí)。內(nèi)存計算將繼續(xù)成為提高大數(shù)據(jù)處理性能的主要手段。以Spark為代表的內(nèi)存計算逐步走向商用,并與Hadoop融合共存,專為大數(shù)據(jù)處理優(yōu)化的系統(tǒng)和硬件出現(xiàn),大數(shù)據(jù)處理多樣化模式并存融合,一體化融合的大數(shù)據(jù)處理平臺逐漸成為趨勢。其中有一個觀點(diǎn)這種多元化一定程度上成為一體化,未來大數(shù)據(jù)多樣化處理模式并存并且有可能成為一體化的平臺。
六、大數(shù)據(jù)安全和隱私持續(xù)令人擔(dān)憂。
七、新的計算模式將取得突破,眾包技術(shù),可能未來不光是大數(shù)據(jù)講深度學(xué)習(xí)。
八、各種可視化技術(shù)和工具提升大數(shù)據(jù)分析。進(jìn)行分析之前,需要對數(shù)據(jù)進(jìn)行探索式地考察。在此過程中,可視化將發(fā)揮很大的作用。
九、大數(shù)據(jù)技術(shù)課程體系建設(shè)和人才培養(yǎng)是需要高度關(guān)注的問題。
十、開源系統(tǒng)將成為大數(shù)據(jù)領(lǐng)域的主流技術(shù)和系統(tǒng)選擇。
邢波分享大數(shù)據(jù)分布式機(jī)器學(xué)習(xí)平臺
2014中國大數(shù)據(jù)技術(shù)大會首日的全體會議上,卡耐基梅隆大學(xué)教授邢波、ICML 2014程序主席邢波(Eric P. Xing)表示,著眼當(dāng)下大數(shù)據(jù)處理平臺,大量資源都都浪費(fèi)在集群的通訊上。即使比較優(yōu)秀的平臺,計算時間也只有20%,通訊時間占到80%,就比如Hadoop的通訊時間占到90%。
而他的研究小組研發(fā)出的Petuum則是一種新型的大數(shù)據(jù)分布式機(jī)器學(xué)習(xí)平臺,包含數(shù)據(jù)和程序并行兩套功能,也對機(jī)器學(xué)習(xí)的特點(diǎn)做了比較好的研究和針對性的使用。大致結(jié)構(gòu)是包含一個參數(shù)服務(wù)器,提供編程的一個虛擬并行內(nèi)存,在編程的時候不用對每個機(jī)器進(jìn)行單獨(dú)通訊,還有一個叫做調(diào)度器,能夠?qū)δP瓦M(jìn)行有效的分割,甚至是動態(tài)分割,然后做分布化。
這個參數(shù)服務(wù)器有一個編程界面,在寫內(nèi)存讀取不需要對每一個機(jī)器做特殊的指令,使用了比較巧妙的所謂半同步的協(xié)調(diào)機(jī)制,這樣可以顯著降低使用在通訊上的時間,而加強(qiáng)在計算上的時間,所以隨著半同步參數(shù)的調(diào)整,通訊時間會顯著下降,降到了甚至比計算時間還要少,這樣使計算機(jī)的資源得到最大量的利用。
Petuum也是開源項目,目前的觀察不光可以達(dá)到很大量,基本上等價于現(xiàn)在最好的系統(tǒng)。根據(jù)邢波教授剛剛收到學(xué)生最新送來的結(jié)果,很讓人驚訝,還有一個組用這個系統(tǒng)跟Spark和Hadoop做了獨(dú)立比較。Petuum系統(tǒng)的愿景既包含軟件和底層軟件的支持,目前也是在Hadoop生態(tài)系統(tǒng)里的一個分子,這個系統(tǒng)可以開放給大家下載以后做自己的開發(fā)。
余凱:深度學(xué)習(xí)將扮演人工智能時代關(guān)鍵角色
百度研究院副院長,深度學(xué)習(xí)實(shí)驗室主任,圖片搜索部高級總監(jiān)余凱介紹了百度在人工智能方面的發(fā)展。對于互聯(lián)網(wǎng)公司來說最重要的技術(shù)是基于大數(shù)據(jù)的人工智能。什么是人工智能?感知、思考和控制是人工智能的幾個重要方面。真正智能的系統(tǒng),是隨著經(jīng)驗的演化,越變越聰明!而經(jīng)驗就是數(shù)據(jù)。
余凱在演講中認(rèn)為:人工智能的本質(zhì)特征之一是學(xué)習(xí)的能力,也就是說系統(tǒng)的能力能否隨著經(jīng)驗數(shù)據(jù)的積累而不斷演化和提升。所以大數(shù)據(jù)時代的到來給人工智能的發(fā)展提供前所未有的機(jī)遇。在這個時代背景下,深度學(xué)習(xí)在各個方面所取得的突破性進(jìn)展并非偶然,因為從統(tǒng)計和計算的角度來說,深度學(xué)習(xí)可能是目前我們能找到的最好的方法,用于在海量數(shù)據(jù)中尋找復(fù)雜的規(guī)律。
除此以外,他認(rèn)為深度學(xué)習(xí)還有兩個顯著優(yōu)點(diǎn):首先,它是一套豐富的建模語言,或者說是建??蚣?,我們可以用這套語言系統(tǒng)來表達(dá)數(shù)據(jù)內(nèi)在的豐富關(guān)系和結(jié)構(gòu),比如圖像中的2D空間結(jié)構(gòu),自然語言的時序結(jié)構(gòu);其次,深度學(xué)習(xí)是幾乎唯一的end-to-end的機(jī)器學(xué)習(xí)系統(tǒng),它的目標(biāo)是直接作用于原始數(shù)據(jù),自動逐層做數(shù)據(jù)特征變換,整個學(xué)習(xí)過程直接優(yōu)化某個問題相關(guān)的目標(biāo)函數(shù),而傳統(tǒng)的機(jī)器學(xué)習(xí)往往被分解為幾個不連貫的步驟,并非一致優(yōu)化某個整體的目標(biāo)。所以,萬物互聯(lián)的時代,數(shù)據(jù)暴增,也意味著人工智能時代的來臨,深度學(xué)習(xí)將扮演關(guān)鍵性角色。從現(xiàn)在到2020年,我們將看到人工智能在語音識別,計算機(jī)視覺,自然語言理解,機(jī)器人,自動駕駛等領(lǐng)域的持續(xù)突破性進(jìn)展。
智能化時代:大數(shù)據(jù)會與深度學(xué)習(xí)劃等號么?
本次會議的組織者安排了媒體對幾位專家的群訪。我向李國杰院士等專家提出了一個問題:“剛剛程學(xué)旗秘書長說大數(shù)據(jù)專委會的專家們投票選擇明年的大數(shù)據(jù)技術(shù)趨勢是說大數(shù)據(jù)跟神經(jīng)計算和人工智能相結(jié)合,有一些委員說明年首先是對國內(nèi)大型互聯(lián)網(wǎng)公司在推動大數(shù)據(jù)發(fā)展方面有更多期待,這是否意味著2015年大數(shù)據(jù)跟人工智能劃等號,或者是跟深度學(xué)習(xí)劃等號了呢?”
【李國杰】那么多專家把大數(shù)據(jù)和人工智能劃等號,但不僅是大數(shù)據(jù),整個智能化技術(shù),是中國未來一段時間很重要的方向。過去幾十年是數(shù)字化,接下來是自動化,然后是網(wǎng)絡(luò)化,智能化也做過,但是相對來說不是那么看重,但是越到后來,現(xiàn)在發(fā)現(xiàn)智能化的要求越來越高,希望它對產(chǎn)業(yè)方面貢獻(xiàn)越來越大。所以智能化一定是很重要的一個主題詞。但是智能化沒有止境,打個比方,好象人的影子似的,太陽在那邊照著,老想踩著影子,永遠(yuǎn)是個邊界。原來認(rèn)為是智能的東西現(xiàn)在認(rèn)為不智能了。
現(xiàn)在智能化跟我們大家關(guān)心的經(jīng)濟(jì)新常態(tài)都扯了一點(diǎn)邊。因為中國經(jīng)濟(jì)以前是靠要素驅(qū)動,現(xiàn)在GDP增長變慢了,下一步要提高GDP,靠人腦的創(chuàng)新。以前這么多年搞來搞去,是靠“筋肉”延伸,靠汗水。而未來人工智能靠創(chuàng)新,靠腦筋。
這是一個新時代的開始,所以所謂新常態(tài)不是往下降了,我覺得是往上升了,提升成大家更往智力上想辦法。環(huán)境污染,資源耗盡的矛盾會降低一些。因為消耗腦子和消耗資源是兩種問題,但是消耗腦子可能會引起世界上兩極社會非常嚴(yán)重,收入等可能差幾倍,聰明的人與不聰明的人將來在社會上的差距,更有所體現(xiàn)。怎么讓全社會更加公平,更加普惠大眾,這是一個新的課題。
【邢波】您剛才那個問題是說大數(shù)據(jù)跟人工智能和深度學(xué)習(xí)怎么劃等號?是這么一個關(guān)系,大數(shù)據(jù)是一個研究對象,人工智能是一個目標(biāo),我們要達(dá)到人工智能的目標(biāo),要理解數(shù)據(jù),方法論是機(jī)器學(xué)習(xí)或者是智能計算。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)里面十個手指頭里面的一個指頭。比如剛剛這位老師講到的網(wǎng)絡(luò)安全,要對加密數(shù)據(jù)做一個分類,就無法用深度學(xué)習(xí)去解決。所以三者的關(guān)系不是等號的關(guān)系,甚至沒有互相包容的關(guān)系,還是不同層面的說法。像深度學(xué)習(xí)在人工智能、機(jī)器學(xué)習(xí)里面什么地方可以用,什么地方不可以用,在學(xué)業(yè)界和工業(yè)界大家都是非常清楚的。不太成熟的我們就慢慢去研究,但是這并不代表深度學(xué)習(xí)就是包羅萬象。
最近有一些社會人士,比如像霍金,像特斯拉CEO,他們說人工智能將導(dǎo)致革命,或者是人工智能將比人類更加強(qiáng)大,這應(yīng)該是科普和娛樂性的話題,不應(yīng)該當(dāng)真。人工智能不是取代人類的課題,它要做的事情應(yīng)該是人不能做的。比如人工智能,沒有哪個科學(xué)家有極大的興趣做仿生機(jī)器人。所以仿生和人工智能是兩件事,工程層面和技術(shù)成功仿生的例子并不是很多,大家是通過仿生做一些科普宣傳,比如說飛機(jī)。飛機(jī)原理和鳥的飛翔原理完全不一樣,機(jī)器學(xué)習(xí)跟大腦運(yùn)行原理完全不一樣,他們講的只是普及工作。對人工智能我們不能把它與深度學(xué)習(xí)劃等號,就像說研究人腦就能達(dá)到人工智能。
【程學(xué)旗】我比較贊同邢波教授的觀點(diǎn),即肯定不能把大數(shù)據(jù)和人工智能劃等號,大數(shù)據(jù)本身未來也可以作為學(xué)科,但是它目前還是一個現(xiàn)象。但是另外一方面看,大家討論的結(jié)論里面,我們叫智能計算,也就是說大數(shù)據(jù)計算里面怎么體現(xiàn)它的智能,或者解決智能方面的問題,這可能是我們未來一段時間內(nèi)學(xué)術(shù)界和工業(yè)界關(guān)心的問題,包括機(jī)器智能,人工智能,各種智能。
人工智能到底解決什么問題?解決人的思考?還是解決人的預(yù)測,還是解決現(xiàn)象?人工智能它的機(jī)理是什么,簡單來講至少大數(shù)據(jù)可以在人工智能做預(yù)測決策的范疇起到促進(jìn)作用。本文來自:CDA數(shù)據(jù)分析師培訓(xùn)官網(wǎng)
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10