
圖文:大數(shù)據(jù)剛剛過了炒作的高峰期_數(shù)據(jù)分析師培訓
長期從事國家863計劃高技術(shù)研究,1995年當選中國工程院院士,2002年當選第三世界科學院院士?,F(xiàn)任國家“973計劃”項目首席科學家,中科院計算所首席科學家,曙光公司董事長、中國計算機學會名譽理事長、國家信息化專家咨詢委員會信息技術(shù)與新興產(chǎn)業(yè)專委會副主任、中國科學院學位委員會副主席等職。
世界已進入了大數(shù)據(jù)時代。很多人從西方獲知關(guān)于它的研究現(xiàn)狀、重大意義,以及面臨的挑戰(zhàn)。
在中國科學界,大數(shù)據(jù)的研究和思考也在往縱深推進。大數(shù)據(jù)科學作為橫跨信息科學、社會科學、網(wǎng)絡科學、系統(tǒng)科學、心理學、經(jīng)濟學等諸多領(lǐng)域的新興交叉學科方向,與此相關(guān)的理論和現(xiàn)實問題,得到深入的探討。中國工程院院士李國杰長期以來研究大數(shù)據(jù),近日,他接受了本報記者的專訪,為我們呈現(xiàn)了一位中國科學家眼里的大數(shù)據(jù)思考。
對可能的負面影響不能掉以輕心
記者:“大數(shù)據(jù)”現(xiàn)在很熱,也有些人比較悲觀,比如法國著名哲學家斯蒂格勒最近在中國接受采訪時說,如果大數(shù)據(jù)依舊是促使人類快速做決定,依舊是資本大爆炸、技術(shù)大爆炸,那么人類是沒有未來的。你認為他是不是多慮了?
李國杰:斯蒂格勒認為,機器的處理是非理性化的,而沒有人的理性控制,完全依賴機器是非常危險的。要將大數(shù)據(jù)推動的無序的資本運作變?yōu)橛行?,給人類留出做理性決策的時間,看清楚人類與技術(shù)共存的更好的方向在哪里。
一般來說,技術(shù)本身是中性的,關(guān)鍵看人類如何使用。技術(shù)的發(fā)展,尤其是信息技術(shù)的發(fā)展,早期往往有一個指數(shù)性增長的階段。但任何增長都有極限,經(jīng)過一段高速發(fā)展之后,一定會遇到增長的零界點(或叫“斷點”)。所謂“科學發(fā)展觀”就是要有理智,未雨綢繆,防止技術(shù)的負面作用無節(jié)制的擴大,導致出現(xiàn)災難性的崩潰。
大數(shù)據(jù)剛剛過了炒作的高峰期,Gartner公司預測大數(shù)據(jù)技術(shù)還要5-10年后才會成為較普遍采用的主流技術(shù)(云計算和企業(yè)3D打印2-5年后就能成為主流)。從現(xiàn)在起,我們就應該關(guān)注如何使大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)走上科學發(fā)展的軌道,對大數(shù)據(jù)可能帶來的負面影響,比如對個人隱私的侵犯等,絕不能掉以輕心。
歷史上許多新技術(shù)出現(xiàn)時,都曾有人擔心可能危害人類的生存。交流電發(fā)明時,許多人反對將交流電接入到住宅內(nèi),但現(xiàn)在交流電無處不在。人類已經(jīng)吃過無節(jié)制地濫用技術(shù)的苦頭,將來應該會更理智地使用新技術(shù)。
大數(shù)據(jù)更難對付的是“泛數(shù)據(jù)”
記者:數(shù)據(jù)分析的歷史遠比大數(shù)據(jù)長。上世紀90年代興起的數(shù)據(jù)挖掘技術(shù)的宗旨就是發(fā)現(xiàn)數(shù)據(jù)中有用的模式,提供有用的決策信息。在你看來,大數(shù)據(jù)的“大”是什么意思?數(shù)據(jù)挖掘是怎么演變?yōu)榇髷?shù)據(jù)的呢?
李國杰:上世紀70年代企業(yè)已開始采用數(shù)據(jù)庫,后來在數(shù)據(jù)庫的基礎(chǔ)上發(fā)展了決策支持系統(tǒng),80年代演變?yōu)?a href='/map/shangyezhineng/' style='color:#000;font-size:inherit;'>商業(yè)智能和數(shù)據(jù)倉庫,主要用于處理結(jié)構(gòu)化的交易數(shù)據(jù)。上世紀90年代以來,由于萬維網(wǎng)的流行,出現(xiàn)大量半結(jié)構(gòu)化的數(shù)據(jù)(Web數(shù)據(jù))。移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的興起使得非結(jié)構(gòu)化的數(shù)據(jù)(照片和視頻數(shù)據(jù))成為網(wǎng)絡數(shù)據(jù)的主流。近幾年科學實驗和工業(yè)數(shù)據(jù)也在指數(shù)性增長,其規(guī)模不亞于網(wǎng)上數(shù)據(jù)。數(shù)據(jù)量急劇增加、數(shù)據(jù)格式的多樣化呼喚新的數(shù)據(jù)分析處理技術(shù),大數(shù)據(jù)技術(shù)順運而生。
其實,所謂“大數(shù)據(jù)”的特征并不僅僅是數(shù)據(jù)量大,更難對付是“雜數(shù)據(jù)”(半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù))和“快數(shù)據(jù)”(要求實時相應的數(shù)據(jù)和流式數(shù)據(jù),如股市交易和遠程視屏點播等),更合適的名稱也許是“泛數(shù)據(jù)”。
從基于數(shù)據(jù)發(fā)現(xiàn)情報、知識、價值和支持決策的角度,“大數(shù)據(jù)”與“小數(shù)據(jù)”并沒有本質(zhì)性的區(qū)別,數(shù)據(jù)分析技術(shù)上也沒有集成電路和光纖通信級別的劃時代發(fā)明。也許過幾年人們就不再使用“大數(shù)據(jù)”這個熱詞,但數(shù)據(jù)的采集和分析將成為人類認識世界、改造世界越來越重要的科學技術(shù)。
重視數(shù)據(jù),就是強調(diào)用事實說話
記者:在去年中國人民大學召開的以“開放政府數(shù)據(jù)”為題的研討會上,你曾經(jīng)說,在大數(shù)據(jù)時代,數(shù)據(jù)不僅僅是工具,也是戰(zhàn)略,也是世界觀,也是文化,為什么這樣講?能否具體解釋一下?
李國杰:數(shù)據(jù)是與物質(zhì)、能源一樣重要的戰(zhàn)略資源,數(shù)據(jù)的采集和分析涉及每一個行業(yè),是帶有全局性和戰(zhàn)略性的技術(shù)。戰(zhàn)爭可能從過去的靠子彈和導彈發(fā)展到靠數(shù)據(jù)決勝的時代。從硬技術(shù)到軟技術(shù)的轉(zhuǎn)變是當今全球性的技術(shù)發(fā)展趨勢,而從數(shù)據(jù)中發(fā)現(xiàn)價值的技術(shù)正是最有活力的軟技術(shù),在數(shù)據(jù)技術(shù)與產(chǎn)業(yè)上的落后將使我們像錯過工業(yè)革命機會一樣延誤一個時代。
大數(shù)據(jù)通過“量化一切”而實現(xiàn)世界的數(shù)據(jù)化,將會改變?nèi)祟愓J知和理解世界的方式,帶來全新的大數(shù)據(jù)世界觀。現(xiàn)在,數(shù)據(jù)已成了科學認識的基礎(chǔ),數(shù)據(jù)挖掘技術(shù)將傳統(tǒng)的經(jīng)驗歸納法發(fā)展為“大數(shù)據(jù)歸納法”,為科學發(fā)現(xiàn)提供了新的認知途徑。
數(shù)據(jù)文化是一種先進文化,其本質(zhì)就是尊重客觀世界的實事求是精神,數(shù)據(jù)就是事實。重視數(shù)據(jù),就是強調(diào)用事實說話、按理性思維的科學精神。中國人的傳統(tǒng)習慣是定性思維而不是定量思維。在開展智慧城市業(yè)務的過程中也發(fā)現(xiàn),大多數(shù)老百姓目前對政府開放公共數(shù)據(jù)并不太關(guān)心。要讓大數(shù)據(jù)走上健康發(fā)展軌道,首先要大力弘揚數(shù)據(jù)文化。
大數(shù)據(jù)促進國家治理體系的現(xiàn)代化
記者:目前推動大數(shù)據(jù)應用的動力主要是企業(yè),政府對大數(shù)據(jù)似乎相對被動,給人的感覺好像就是官博、官微等互聯(lián)網(wǎng)應用,即便投資大數(shù)據(jù),主要目的好像還是增加GDP,大數(shù)據(jù)對政府意味著什么?政府到底要做什么?
李國杰:除了促進經(jīng)濟發(fā)展,大數(shù)據(jù)的另一方面效益是促進國家治理體系的現(xiàn)代化,提高現(xiàn)代化治理能力,國家治理能力的現(xiàn)代化不能光用GDP來反映。經(jīng)濟系統(tǒng)類似于人體的血液系統(tǒng),國家治理體系類似于神經(jīng)系統(tǒng),我們不必用左手來證明右手的重要性。
在發(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的過程中,政府可做的事情很多,主要包括:通過立法和監(jiān)督培育大數(shù)據(jù)產(chǎn)業(yè)鏈和公平的企業(yè)競爭環(huán)境;加大與大數(shù)據(jù)有關(guān)的科技投入,著力突破大數(shù)據(jù)關(guān)鍵技術(shù);打破部門壁壘,促進數(shù)據(jù)融合和集成;推進政府公共數(shù)據(jù)的開放共享,建設(shè)大數(shù)據(jù)開放平臺;建立國家層面的數(shù)據(jù)標準體系,為數(shù)據(jù)管理提供操作指南;通過立法盡快建立個人隱私保護制度,為公眾創(chuàng)造一個良好的大數(shù)據(jù)安全環(huán)境;加快大數(shù)據(jù)公共基礎(chǔ)設(shè)施建設(shè);加大大數(shù)據(jù)人才培養(yǎng)的力度等等。
多做一些“頗為樸實”的事情
記者:人們常說大數(shù)據(jù)是沙里淘金、大海撈針,但往往不知道沙里有沒有金,海里有沒有針,浪費了很多精力,你認為大數(shù)據(jù)的大價值究竟體現(xiàn)在哪里?
李國杰:人們總是期望從大數(shù)據(jù)中挖掘出意想不到的“大價值”。實際上大數(shù)據(jù)更大的價值是帶動有關(guān)的科研和產(chǎn)業(yè),提高各行各業(yè)通過數(shù)據(jù)分析解決困難問題和增值的能力。大數(shù)據(jù)的價值主要體現(xiàn)在它的驅(qū)動效應。大數(shù)據(jù)對經(jīng)濟的貢獻并不完全反映在大數(shù)據(jù)公司的直接收入上,應考慮對其他行業(yè)效率和質(zhì)量提高的貢獻。大數(shù)據(jù)是典型的通用技術(shù),理解通用技術(shù)要采用“蜜蜂模型”:蜜蜂的效益主要不是自己釀的蜂蜜,而是傳粉對農(nóng)業(yè)的貢獻。
電子計算機的創(chuàng)始人之一馮·諾依曼曾指出:“在每一門科學中,當通過研究那些與終極目標相比頗為樸實的問題,發(fā)展出一些可以不斷加以推廣的方法時,這門學科就得到了巨大的進展。”我們不必天天期盼奇跡出現(xiàn),所謂“啤酒加尿布”的數(shù)據(jù)挖掘經(jīng)典案例其實也是Teradata公司一個經(jīng)理編出來的“故事”。多做一些“頗為樸實”的事情,實際的進步就在扎扎實實的努力之中。
不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,要比實際應用效果
記者:中國在大數(shù)據(jù)方面和其他一些國家的差距究竟有多大?主要體現(xiàn)在哪些方面?我國在發(fā)展大數(shù)據(jù)中要注意哪些問題?
李國杰:中國的大數(shù)據(jù)企業(yè)已經(jīng)有相當好的基礎(chǔ)。全球十大互聯(lián)網(wǎng)服務企業(yè)中國占有4席(阿里巴巴、騰訊、百度和京東),其他6個TOP10 互聯(lián)網(wǎng)服務企業(yè)全部是美國企業(yè),歐洲和日本沒有互聯(lián)網(wǎng)企業(yè)進入TOP10。這說明中國企業(yè)在基于大數(shù)據(jù)的互聯(lián)網(wǎng)服務業(yè)務上已處于世界前列。在發(fā)展大數(shù)據(jù)技術(shù)上,我國有可能改變過去30年技術(shù)受制于人的局面,在大數(shù)據(jù)應用上中國有可能在全世界起到引領(lǐng)作用。
但是,企業(yè)的規(guī)模走在世界前列并不表示我國在大數(shù)據(jù)技術(shù)上領(lǐng)先。實際上,國際上目前流行的大數(shù)據(jù)主流技術(shù)沒有一項是我國開創(chuàng)的。開源社區(qū)和眾包是發(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的重要途徑,但我們對開源社區(qū)的貢獻很小,在全球近萬名社區(qū)核心志愿者中,我國可能不到200名。我們要吸取過去基礎(chǔ)研究為企業(yè)提供核心技術(shù)不夠的教訓,加強大數(shù)據(jù)基礎(chǔ)研究和前瞻技術(shù)研究,努力攻克大數(shù)據(jù)核心和關(guān)鍵技術(shù)。另外,在數(shù)據(jù)的開放共享方面,我國也落后于許多國家(包括一些發(fā)展中國家),在保護個人隱私等立法上,我國還沒有引起重視。
我們習慣于跟隨國外的熱潮,往往不自覺地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動”的道路。實際上發(fā)展信息技術(shù)的目的是為人服務,檢驗一切技術(shù)的唯一標準是應用。錢學森先生曾倡導“大成智慧學”,提出“必集大成,才能得智慧”。大數(shù)據(jù)的力量就是來自“大成智慧”。一定要高度重視不同來源和不同格式數(shù)據(jù)的集成融合,強調(diào)不同部門、不同學科的協(xié)作。IEEE計算機學會最近發(fā)布了2014年的計算機技術(shù)發(fā)展趨勢預測報告,重點強調(diào)“無縫智慧(seamless intelli-gence)。發(fā)展大數(shù)據(jù)的目標是要獲得協(xié)同融合的“無縫智慧”。
數(shù)據(jù)挖掘的價值是用成本換來的,不能不計成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。目前全國各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達2PB以上的數(shù)據(jù)處理中心。許多城市公安部門要求存儲3個月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實際應用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應用,因地制宜發(fā)展大數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03