
大數(shù)據(jù)的挑戰(zhàn)問(wèn)題和發(fā)展趨勢(shì)_數(shù)據(jù)分析師
Hadoop大會(huì)是2008年的時(shí)候幾十個(gè)人在金融所的樓里面討論的Hadoop IN China,從去年開(kāi)始上千人到今年有更多的人參加本身就反映了一種趨勢(shì)。也就是說(shuō)為什么今年把名字改成了Hadoop與大數(shù)據(jù)技術(shù)大會(huì),實(shí)際上大數(shù)據(jù)不是今年就一定有。大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái)了,五年前我們組織Hadoop IN CHINA這個(gè)會(huì)已經(jīng)和今天的大數(shù)據(jù)的主題比較切合,今年大數(shù)據(jù)的概念比較大,所以我們把題目改成了Hadoop與大數(shù)據(jù)技術(shù)大會(huì)大會(huì)。
當(dāng)然,大數(shù)據(jù)不僅僅與Hadoop相關(guān),傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)和結(jié)構(gòu)化存儲(chǔ)相關(guān)的技術(shù),在大數(shù)據(jù)時(shí)代的時(shí)候是不是有什么新的問(wèn)題,有什么新的挑戰(zhàn),業(yè)界、學(xué)術(shù)界以及政府部門(mén)對(duì)相關(guān)的大數(shù)據(jù)是怎么看的。我估計(jì)今年至少?gòu)?0月份以來(lái),國(guó)內(nèi)關(guān)于大數(shù)據(jù)的會(huì)議已經(jīng)開(kāi)了7、8次了,往后還會(huì)陸陸續(xù)續(xù)要開(kāi)。這種情況下,中國(guó)計(jì)算機(jī)學(xué)會(huì)組織大數(shù)據(jù)專(zhuān)家委員會(huì),不是為了趕熱鬧,而是組織專(zhuān)家委員會(huì)以及把Hadoop歸到大數(shù)據(jù)專(zhuān)家委員會(huì)來(lái)統(tǒng)一組織實(shí)際上是有它內(nèi)在的理由和原因的。
為什么第一個(gè)報(bào)告我來(lái)講,去年的Hadoop大會(huì)叫數(shù)據(jù)掘?qū)?,主題已經(jīng)是跟大數(shù)據(jù)相關(guān)了。今年的主題叫大數(shù)據(jù)開(kāi)源與技術(shù)共享,這實(shí)際上是大數(shù)據(jù)今年發(fā)展面臨的關(guān)鍵的問(wèn)題。今天我是代表中國(guó)計(jì)算機(jī)學(xué)會(huì)專(zhuān)家委員會(huì)來(lái)發(fā)布大數(shù)據(jù)的熱點(diǎn)及未來(lái)的發(fā)展趨勢(shì)做一些調(diào)研跟大家分享。
這個(gè)工作的過(guò)程簡(jiǎn)單地介紹一下,大數(shù)據(jù)執(zhí)行委從今年10月在中國(guó)計(jì)算機(jī)大會(huì)上成立以來(lái)有70名委員,其中學(xué)術(shù)界有46位,產(chǎn)業(yè)界14位,還有海外學(xué)術(shù)界委員10位。我們?cè)诖筮B開(kāi)會(huì)的時(shí)候探討過(guò),既然大數(shù)據(jù)這么熱,而且在CNCC大會(huì)上有1600、1700人差不多每個(gè)人都說(shuō)自己是做的大數(shù)據(jù),無(wú)論是做物聯(lián)網(wǎng)的還是做高清計(jì)算的,所有人都說(shuō)我做的是大數(shù)據(jù)。當(dāng)時(shí)我們?cè)谙耄热徽麄€(gè)計(jì)算機(jī)界人做的都是大數(shù)據(jù),那什么是大數(shù)據(jù)。
我們是不是在趕時(shí)髦用同樣的一個(gè)詞裝各自所說(shuō)的酒,也是基于這樣的考慮,大數(shù)據(jù)專(zhuān)家為第一次開(kāi)會(huì)的時(shí)候希望能不能邀請(qǐng)業(yè)界的人士共同探討大數(shù)據(jù)的科學(xué)問(wèn)題是什么、邊界是什么,以及為什么大數(shù)據(jù)成為熱點(diǎn)的詞以及大大數(shù)據(jù)技術(shù)上的挑戰(zhàn)到底是什么。當(dāng)時(shí)的會(huì)議上我們提出了這樣的議案,最后在很短的時(shí)間內(nèi)從調(diào)研分析以及具體的提案到侯選問(wèn)題的征集到最后專(zhuān)家的投票、委員的投票會(huì)聚了現(xiàn)在的結(jié)果,這個(gè)過(guò)程持續(xù)了一個(gè)多月。
這只是初步的結(jié)果。
針對(duì)大數(shù)據(jù)問(wèn)題我們搜集了14個(gè)選項(xiàng),包括科學(xué)問(wèn)題相關(guān)的數(shù)據(jù)的科學(xué)問(wèn)題、大數(shù)據(jù)的基本內(nèi)涵、計(jì)算模式,跟技術(shù)相關(guān)的是大數(shù)據(jù)的多樣性和數(shù)據(jù)態(tài)、大數(shù)據(jù)的空間維問(wèn)題、時(shí)間維問(wèn)題,如何將大數(shù)據(jù)變小及數(shù)據(jù)的價(jià)值提煉。數(shù)字都是70位委員的投票數(shù)。也包括了大數(shù)據(jù)的關(guān)鍵應(yīng)用領(lǐng)域,以及大數(shù)據(jù)對(duì)IT技術(shù)和架構(gòu)提出的安全與占、數(shù)據(jù)的安全和隱私。最后一個(gè)是大數(shù)據(jù)的生態(tài)問(wèn)題。侯選項(xiàng)相互之間是有一定的重疊,而且顆粒度也不完全一致,完全是由專(zhuān)家自己提出來(lái)的,我們給他做了會(huì)聚,沒(méi)有做一些很精細(xì)的加工。但基本上大家的投票結(jié)果來(lái)看,投票率還是非常高的,比如說(shuō)數(shù)據(jù)的計(jì)算模式問(wèn)題關(guān)注度非常高。投票的初始結(jié)果我們給出了大數(shù)據(jù)熱點(diǎn)問(wèn)題的八個(gè)方面。第一個(gè)方面是數(shù)據(jù)科學(xué)與大數(shù)據(jù)的學(xué)科邊界問(wèn)題,涉及到侯選項(xiàng)的兩項(xiàng),講到了數(shù)據(jù)界、物理界與人的關(guān)聯(lián)是什么,數(shù)據(jù)是不是客觀存在的空間和現(xiàn)象。還有數(shù)據(jù)有沒(méi)有獨(dú)立的問(wèn)題。大數(shù)據(jù)的基本學(xué)科邊界有一個(gè)內(nèi)涵和外延的限定,以及區(qū)別于其他數(shù)據(jù)的關(guān)鍵特征。最近有一本出版的數(shù)講的是大數(shù)據(jù)不見(jiàn)得規(guī)模大,而是比較全。當(dāng)然這是一種新的說(shuō)法的。也就是說(shuō)大數(shù)據(jù)的基本問(wèn)題和邊界是什么。這是我們關(guān)心的第一個(gè)大的方面。
第二個(gè)方面是數(shù)據(jù)計(jì)算的基本模式和范式問(wèn)題,包括了數(shù)據(jù)密集型計(jì)算的基本范式是什么,以及數(shù)據(jù)計(jì)算的基本評(píng)估和數(shù)據(jù)計(jì)算的復(fù)雜性,以數(shù)據(jù)為中心去中心化的自主計(jì)算模式是不是數(shù)據(jù)計(jì)算的主要的模式。第三個(gè)熱點(diǎn)問(wèn)題是大數(shù)據(jù)的特性和數(shù)據(jù)態(tài)的問(wèn)題。從數(shù)據(jù)的復(fù)雜性來(lái)講,數(shù)據(jù)的關(guān)聯(lián)模式、關(guān)系為復(fù)雜,數(shù)據(jù)的空間為復(fù)雜,包括數(shù)據(jù)在人機(jī)物三個(gè)空間里以及柔性密度的所產(chǎn)生的空間維度的復(fù)雜性,以及跟時(shí)間相關(guān)的特性。我們把它總結(jié)為大數(shù)據(jù)的基本特性和數(shù)據(jù)態(tài)的問(wèn)題。
第四個(gè)熱點(diǎn)問(wèn)題是大數(shù)據(jù)的作用力與變化反應(yīng)。包括了兩個(gè)方面,第一個(gè)方面是如何將大數(shù)據(jù)變小,在盡量不損失價(jià)值的情況下減少數(shù)據(jù)的規(guī)模,像數(shù)據(jù)的清洗、去除等等,也是如何有效地處理大數(shù)據(jù)類(lèi)似物理的作用把大數(shù)據(jù)的規(guī)模變小但不損失價(jià)值。第二個(gè)是化學(xué)作用,從一個(gè)平面的大數(shù)據(jù)提煉出高附加值的概念、知識(shí)和智慧。大數(shù)據(jù)的探索和可視性在這里面可以得到很大的發(fā)揮。計(jì)算方面我們通過(guò)群體指揮以及認(rèn)知等方面發(fā)揮和提煉。
第五個(gè)問(wèn)題是大數(shù)據(jù)的安全和隱私問(wèn)題。投票是59票。
第六個(gè)問(wèn)題是大數(shù)據(jù)對(duì)IT技術(shù)的挑戰(zhàn),包括存儲(chǔ)、傳出和分布式計(jì)算相關(guān)的整體架構(gòu)的變化。今天的Hadoop實(shí)際上是應(yīng)對(duì)大數(shù)據(jù)及大數(shù)據(jù)處理的相關(guān)的架構(gòu),雖然它目前的影響力很大了,但離成熟還有很遠(yuǎn)的距離,也就是說(shuō)大數(shù)據(jù)的發(fā)展和爆發(fā)對(duì)IT架構(gòu)提出了大的挑戰(zhàn)。
第七個(gè)問(wèn)題是大數(shù)據(jù)的應(yīng)用和產(chǎn)業(yè)鏈的問(wèn)題,。大數(shù)據(jù)有大價(jià)值,但在產(chǎn)業(yè)上如何形成有效增益的環(huán)境,以及大數(shù)據(jù)到底在什么樣的應(yīng)用領(lǐng)域里能夠發(fā)揮絕對(duì)的價(jià)值,比如說(shuō)跟社會(huì)科學(xué)、跟金融相關(guān)的,后面還會(huì)有一些分析,這個(gè)投票方面有大數(shù)據(jù)的應(yīng)用和產(chǎn)業(yè)鏈。
第八個(gè)問(wèn)題是大數(shù)據(jù)的生態(tài)環(huán)境問(wèn)題,如果大數(shù)據(jù)時(shí)代真正地來(lái)臨,從數(shù)據(jù)變成資產(chǎn)、數(shù)據(jù)的加工和制造,甚至在前期討論有數(shù)據(jù)的制藥,有新的數(shù)據(jù)工業(yè)和數(shù)據(jù)衍生品,這種數(shù)據(jù)市場(chǎng)和數(shù)據(jù)衍生品帶來(lái)的市場(chǎng)的繁榮,另一方面是政策、環(huán)境包括投資環(huán)境和管理政策方面以及科研、研究所、學(xué)生的培養(yǎng)和國(guó)家政策的扶持方面形成的生態(tài)環(huán)境是大數(shù)據(jù)的第八個(gè)關(guān)鍵熱點(diǎn)問(wèn)題。由于大數(shù)據(jù)廣泛的使用也會(huì)帶來(lái)政治倫理政治方面的問(wèn)題,我們統(tǒng)稱為大數(shù)據(jù)的生態(tài)問(wèn)題。
這是我們提煉出14個(gè)侯選項(xiàng)廣泛地參與意見(jiàn)和投票之后提煉出的大數(shù)據(jù)時(shí)代的核心問(wèn)題,這是目前的認(rèn)識(shí),也許未來(lái)這個(gè)問(wèn)題包括在座的每一位同仁們可能有自己的想法,我們只是拋磚引玉,對(duì)大數(shù)據(jù)的核心問(wèn)題提煉出八點(diǎn)。
第二方面的議題是發(fā)展趨勢(shì)。任何的預(yù)測(cè)都是有問(wèn)題的,我們發(fā)布的時(shí)候其實(shí)心里面是沒(méi)有底氣的,題目是在2013年在最近的距離內(nèi)可預(yù)測(cè)的大數(shù)據(jù)的發(fā)展趨勢(shì)是哪些方面,搜集了一些相關(guān)的內(nèi)容,包括了70多位專(zhuān)家以及跟數(shù)學(xué)領(lǐng)域的專(zhuān)家合作,大家提煉出的發(fā)展趨勢(shì)有37項(xiàng),包括大數(shù)據(jù)的整體態(tài)勢(shì)和發(fā)展趨勢(shì),大數(shù)據(jù)與學(xué)術(shù)、大數(shù)據(jù)與人類(lèi)的活動(dòng),大數(shù)據(jù)的安全隱私、關(guān)鍵應(yīng)用、系統(tǒng)處理和整個(gè)產(chǎn)業(yè)的影響。這方面總共有37項(xiàng)。大數(shù)據(jù)的整體態(tài)勢(shì)上,數(shù)據(jù)的規(guī)模更大,數(shù)據(jù)資源化、數(shù)據(jù)的價(jià)值凸顯、數(shù)據(jù)私有化出現(xiàn)和聯(lián)盟共享。大數(shù)據(jù)有沒(méi)有形成新的學(xué)科,當(dāng)然仁者見(jiàn)仁智者見(jiàn)智,有很多人提出很多的想法。跟學(xué)術(shù)相關(guān)的包括數(shù)據(jù)科學(xué)的興起,數(shù)學(xué)學(xué)科發(fā)生了很多的變革,由于數(shù)據(jù)學(xué)科的產(chǎn)生反過(guò)來(lái)影響為物理學(xué)和數(shù)學(xué)提出的新的要求,需求促使了技術(shù)學(xué)科的發(fā)展和變革。顆粒度不太一樣,還有一些自主計(jì)算,基于海量知識(shí)的智能的革命性
的方法。有更奇妙的人機(jī)互聯(lián)。大數(shù)據(jù)的隱私安全及跟國(guó)家安全相關(guān)的問(wèn)題,我們也希望提出一個(gè)問(wèn)號(hào),總令人矚目的大數(shù)據(jù)的應(yīng)用到底是什么。還有基于大數(shù)據(jù)的決策支持、大數(shù)據(jù)的預(yù)測(cè)和清洗,大數(shù)據(jù)跟大企業(yè)的信息的推薦。大數(shù)據(jù)的系統(tǒng)處理上處理能力難以滿足需要,處理模式多樣化以及帶來(lái)的網(wǎng)絡(luò)帶寬的壓力。如果大數(shù)據(jù)來(lái)了以后把數(shù)據(jù)的價(jià)值充分發(fā)揮出來(lái),網(wǎng)絡(luò)的傳輸、網(wǎng)絡(luò)的管理會(huì)帶來(lái)一些非常突出的壓力。資本會(huì)不會(huì)高度關(guān)注
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專(zhuān)注于從單 ...
2025-07-09year_month數(shù)據(jù)類(lèi)型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類(lèi)型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門(mén)控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書(shū)考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專(zhuān)業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03