
圖文:大數(shù)據(jù)剛剛過了炒作的高峰期_數(shù)據(jù)分析師培訓(xùn)
長期從事國家863計劃高技術(shù)研究,1995年當(dāng)選中國工程院院士,2002年當(dāng)選第三世界科學(xué)院院士?,F(xiàn)任國家“973計劃”項目首席科學(xué)家,中科院計算所首席科學(xué)家,曙光公司董事長、中國計算機(jī)學(xué)會名譽(yù)理事長、國家信息化專家咨詢委員會信息技術(shù)與新興產(chǎn)業(yè)專委會副主任、中國科學(xué)院學(xué)位委員會副主席等職。
世界已進(jìn)入了大數(shù)據(jù)時代。很多人從西方獲知關(guān)于它的研究現(xiàn)狀、重大意義,以及面臨的挑戰(zhàn)。
在中國科學(xué)界,大數(shù)據(jù)的研究和思考也在往縱深推進(jìn)。大數(shù)據(jù)科學(xué)作為橫跨信息科學(xué)、社會科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科方向,與此相關(guān)的理論和現(xiàn)實問題,得到深入的探討。中國工程院院士李國杰長期以來研究大數(shù)據(jù),近日,他接受了本報記者的專訪,為我們呈現(xiàn)了一位中國科學(xué)家眼里的大數(shù)據(jù)思考。
對可能的負(fù)面影響不能掉以輕心
記者:“大數(shù)據(jù)”現(xiàn)在很熱,也有些人比較悲觀,比如法國著名哲學(xué)家斯蒂格勒最近在中國接受采訪時說,如果大數(shù)據(jù)依舊是促使人類快速做決定,依舊是資本大爆炸、技術(shù)大爆炸,那么人類是沒有未來的。你認(rèn)為他是不是多慮了?
李國杰:斯蒂格勒認(rèn)為,機(jī)器的處理是非理性化的,而沒有人的理性控制,完全依賴機(jī)器是非常危險的。要將大數(shù)據(jù)推動的無序的資本運(yùn)作變?yōu)橛行颍o人類留出做理性決策的時間,看清楚人類與技術(shù)共存的更好的方向在哪里。
一般來說,技術(shù)本身是中性的,關(guān)鍵看人類如何使用。技術(shù)的發(fā)展,尤其是信息技術(shù)的發(fā)展,早期往往有一個指數(shù)性增長的階段。但任何增長都有極限,經(jīng)過一段高速發(fā)展之后,一定會遇到增長的零界點(或叫“斷點”)。所謂“科學(xué)發(fā)展觀”就是要有理智,未雨綢繆,防止技術(shù)的負(fù)面作用無節(jié)制的擴(kuò)大,導(dǎo)致出現(xiàn)災(zāi)難性的崩潰。
大數(shù)據(jù)剛剛過了炒作的高峰期,Gartner公司預(yù)測大數(shù)據(jù)技術(shù)還要5-10年后才會成為較普遍采用的主流技術(shù)(云計算和企業(yè)3D打印2-5年后就能成為主流)。從現(xiàn)在起,我們就應(yīng)該關(guān)注如何使大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)走上科學(xué)發(fā)展的軌道,對大數(shù)據(jù)可能帶來的負(fù)面影響,比如對個人隱私的侵犯等,絕不能掉以輕心。
歷史上許多新技術(shù)出現(xiàn)時,都曾有人擔(dān)心可能危害人類的生存。交流電發(fā)明時,許多人反對將交流電接入到住宅內(nèi),但現(xiàn)在交流電無處不在。人類已經(jīng)吃過無節(jié)制地濫用技術(shù)的苦頭,將來應(yīng)該會更理智地使用新技術(shù)。
大數(shù)據(jù)更難對付的是“泛數(shù)據(jù)”
記者:數(shù)據(jù)分析的歷史遠(yuǎn)比大數(shù)據(jù)長。上世紀(jì)90年代興起的數(shù)據(jù)挖掘技術(shù)的宗旨就是發(fā)現(xiàn)數(shù)據(jù)中有用的模式,提供有用的決策信息。在你看來,大數(shù)據(jù)的“大”是什么意思?數(shù)據(jù)挖掘是怎么演變?yōu)榇髷?shù)據(jù)的呢?
李國杰:上世紀(jì)70年代企業(yè)已開始采用數(shù)據(jù)庫,后來在數(shù)據(jù)庫的基礎(chǔ)上發(fā)展了決策支持系統(tǒng),80年代演變?yōu)?a href='/map/shangyezhineng/' style='color:#000;font-size:inherit;'>商業(yè)智能和數(shù)據(jù)倉庫,主要用于處理結(jié)構(gòu)化的交易數(shù)據(jù)。上世紀(jì)90年代以來,由于萬維網(wǎng)的流行,出現(xiàn)大量半結(jié)構(gòu)化的數(shù)據(jù)(Web數(shù)據(jù))。移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的興起使得非結(jié)構(gòu)化的數(shù)據(jù)(照片和視頻數(shù)據(jù))成為網(wǎng)絡(luò)數(shù)據(jù)的主流。近幾年科學(xué)實驗和工業(yè)數(shù)據(jù)也在指數(shù)性增長,其規(guī)模不亞于網(wǎng)上數(shù)據(jù)。數(shù)據(jù)量急劇增加、數(shù)據(jù)格式的多樣化呼喚新的數(shù)據(jù)分析處理技術(shù),大數(shù)據(jù)技術(shù)順運(yùn)而生。
其實,所謂“大數(shù)據(jù)”的特征并不僅僅是數(shù)據(jù)量大,更難對付是“雜數(shù)據(jù)”(半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù))和“快數(shù)據(jù)”(要求實時相應(yīng)的數(shù)據(jù)和流式數(shù)據(jù),如股市交易和遠(yuǎn)程視屏點播等),更合適的名稱也許是“泛數(shù)據(jù)”。
從基于數(shù)據(jù)發(fā)現(xiàn)情報、知識、價值和支持決策的角度,“大數(shù)據(jù)”與“小數(shù)據(jù)”并沒有本質(zhì)性的區(qū)別,數(shù)據(jù)分析技術(shù)上也沒有集成電路和光纖通信級別的劃時代發(fā)明。也許過幾年人們就不再使用“大數(shù)據(jù)”這個熱詞,但數(shù)據(jù)的采集和分析將成為人類認(rèn)識世界、改造世界越來越重要的科學(xué)技術(shù)。
重視數(shù)據(jù),就是強(qiáng)調(diào)用事實說話
記者:在去年中國人民大學(xué)召開的以“開放政府?dāng)?shù)據(jù)”為題的研討會上,你曾經(jīng)說,在大數(shù)據(jù)時代,數(shù)據(jù)不僅僅是工具,也是戰(zhàn)略,也是世界觀,也是文化,為什么這樣講?能否具體解釋一下?
李國杰:數(shù)據(jù)是與物質(zhì)、能源一樣重要的戰(zhàn)略資源,數(shù)據(jù)的采集和分析涉及每一個行業(yè),是帶有全局性和戰(zhàn)略性的技術(shù)。戰(zhàn)爭可能從過去的靠子彈和導(dǎo)彈發(fā)展到靠數(shù)據(jù)決勝的時代。從硬技術(shù)到軟技術(shù)的轉(zhuǎn)變是當(dāng)今全球性的技術(shù)發(fā)展趨勢,而從數(shù)據(jù)中發(fā)現(xiàn)價值的技術(shù)正是最有活力的軟技術(shù),在數(shù)據(jù)技術(shù)與產(chǎn)業(yè)上的落后將使我們像錯過工業(yè)革命機(jī)會一樣延誤一個時代。
大數(shù)據(jù)通過“量化一切”而實現(xiàn)世界的數(shù)據(jù)化,將會改變?nèi)祟愓J(rèn)知和理解世界的方式,帶來全新的大數(shù)據(jù)世界觀?,F(xiàn)在,數(shù)據(jù)已成了科學(xué)認(rèn)識的基礎(chǔ),數(shù)據(jù)挖掘技術(shù)將傳統(tǒng)的經(jīng)驗歸納法發(fā)展為“大數(shù)據(jù)歸納法”,為科學(xué)發(fā)現(xiàn)提供了新的認(rèn)知途徑。
數(shù)據(jù)文化是一種先進(jìn)文化,其本質(zhì)就是尊重客觀世界的實事求是精神,數(shù)據(jù)就是事實。重視數(shù)據(jù),就是強(qiáng)調(diào)用事實說話、按理性思維的科學(xué)精神。中國人的傳統(tǒng)習(xí)慣是定性思維而不是定量思維。在開展智慧城市業(yè)務(wù)的過程中也發(fā)現(xiàn),大多數(shù)老百姓目前對政府開放公共數(shù)據(jù)并不太關(guān)心。要讓大數(shù)據(jù)走上健康發(fā)展軌道,首先要大力弘揚(yáng)數(shù)據(jù)文化。
大數(shù)據(jù)促進(jìn)國家治理體系的現(xiàn)代化
記者:目前推動大數(shù)據(jù)應(yīng)用的動力主要是企業(yè),政府對大數(shù)據(jù)似乎相對被動,給人的感覺好像就是官博、官微等互聯(lián)網(wǎng)應(yīng)用,即便投資大數(shù)據(jù),主要目的好像還是增加GDP,大數(shù)據(jù)對政府意味著什么?政府到底要做什么?
李國杰:除了促進(jìn)經(jīng)濟(jì)發(fā)展,大數(shù)據(jù)的另一方面效益是促進(jìn)國家治理體系的現(xiàn)代化,提高現(xiàn)代化治理能力,國家治理能力的現(xiàn)代化不能光用GDP來反映。經(jīng)濟(jì)系統(tǒng)類似于人體的血液系統(tǒng),國家治理體系類似于神經(jīng)系統(tǒng),我們不必用左手來證明右手的重要性。
在發(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的過程中,政府可做的事情很多,主要包括:通過立法和監(jiān)督培育大數(shù)據(jù)產(chǎn)業(yè)鏈和公平的企業(yè)競爭環(huán)境;加大與大數(shù)據(jù)有關(guān)的科技投入,著力突破大數(shù)據(jù)關(guān)鍵技術(shù);打破部門壁壘,促進(jìn)數(shù)據(jù)融合和集成;推進(jìn)政府公共數(shù)據(jù)的開放共享,建設(shè)大數(shù)據(jù)開放平臺;建立國家層面的數(shù)據(jù)標(biāo)準(zhǔn)體系,為數(shù)據(jù)管理提供操作指南;通過立法盡快建立個人隱私保護(hù)制度,為公眾創(chuàng)造一個良好的大數(shù)據(jù)安全環(huán)境;加快大數(shù)據(jù)公共基礎(chǔ)設(shè)施建設(shè);加大大數(shù)據(jù)人才培養(yǎng)的力度等等。
多做一些“頗為樸實”的事情
記者:人們常說大數(shù)據(jù)是沙里淘金、大海撈針,但往往不知道沙里有沒有金,海里有沒有針,浪費了很多精力,你認(rèn)為大數(shù)據(jù)的大價值究竟體現(xiàn)在哪里?
李國杰:人們總是期望從大數(shù)據(jù)中挖掘出意想不到的“大價值”。實際上大數(shù)據(jù)更大的價值是帶動有關(guān)的科研和產(chǎn)業(yè),提高各行各業(yè)通過數(shù)據(jù)分析解決困難問題和增值的能力。大數(shù)據(jù)的價值主要體現(xiàn)在它的驅(qū)動效應(yīng)。大數(shù)據(jù)對經(jīng)濟(jì)的貢獻(xiàn)并不完全反映在大數(shù)據(jù)公司的直接收入上,應(yīng)考慮對其他行業(yè)效率和質(zhì)量提高的貢獻(xiàn)。大數(shù)據(jù)是典型的通用技術(shù),理解通用技術(shù)要采用“蜜蜂模型”:蜜蜂的效益主要不是自己釀的蜂蜜,而是傳粉對農(nóng)業(yè)的貢獻(xiàn)。
電子計算機(jī)的創(chuàng)始人之一馮·諾依曼曾指出:“在每一門科學(xué)中,當(dāng)通過研究那些與終極目標(biāo)相比頗為樸實的問題,發(fā)展出一些可以不斷加以推廣的方法時,這門學(xué)科就得到了巨大的進(jìn)展?!蔽覀儾槐靥焯炱谂纹孥E出現(xiàn),所謂“啤酒加尿布”的數(shù)據(jù)挖掘經(jīng)典案例其實也是Teradata公司一個經(jīng)理編出來的“故事”。多做一些“頗為樸實”的事情,實際的進(jìn)步就在扎扎實實的努力之中。
不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,要比實際應(yīng)用效果
記者:中國在大數(shù)據(jù)方面和其他一些國家的差距究竟有多大?主要體現(xiàn)在哪些方面?我國在發(fā)展大數(shù)據(jù)中要注意哪些問題?
李國杰:中國的大數(shù)據(jù)企業(yè)已經(jīng)有相當(dāng)好的基礎(chǔ)。全球十大互聯(lián)網(wǎng)服務(wù)企業(yè)中國占有4席(阿里巴巴、騰訊、百度和京東),其他6個TOP10 互聯(lián)網(wǎng)服務(wù)企業(yè)全部是美國企業(yè),歐洲和日本沒有互聯(lián)網(wǎng)企業(yè)進(jìn)入TOP10。這說明中國企業(yè)在基于大數(shù)據(jù)的互聯(lián)網(wǎng)服務(wù)業(yè)務(wù)上已處于世界前列。在發(fā)展大數(shù)據(jù)技術(shù)上,我國有可能改變過去30年技術(shù)受制于人的局面,在大數(shù)據(jù)應(yīng)用上中國有可能在全世界起到引領(lǐng)作用。
但是,企業(yè)的規(guī)模走在世界前列并不表示我國在大數(shù)據(jù)技術(shù)上領(lǐng)先。實際上,國際上目前流行的大數(shù)據(jù)主流技術(shù)沒有一項是我國開創(chuàng)的。開源社區(qū)和眾包是發(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)的重要途徑,但我們對開源社區(qū)的貢獻(xiàn)很小,在全球近萬名社區(qū)核心志愿者中,我國可能不到200名。我們要吸取過去基礎(chǔ)研究為企業(yè)提供核心技術(shù)不夠的教訓(xùn),加強(qiáng)大數(shù)據(jù)基礎(chǔ)研究和前瞻技術(shù)研究,努力攻克大數(shù)據(jù)核心和關(guān)鍵技術(shù)。另外,在數(shù)據(jù)的開放共享方面,我國也落后于許多國家(包括一些發(fā)展中國家),在保護(hù)個人隱私等立法上,我國還沒有引起重視。
我們習(xí)慣于跟隨國外的熱潮,往往不自覺地跟著技術(shù)潮流走,最容易走上“技術(shù)驅(qū)動”的道路。實際上發(fā)展信息技術(shù)的目的是為人服務(wù),檢驗一切技術(shù)的唯一標(biāo)準(zhǔn)是應(yīng)用。錢學(xué)森先生曾倡導(dǎo)“大成智慧學(xué)”,提出“必集大成,才能得智慧”。大數(shù)據(jù)的力量就是來自“大成智慧”。一定要高度重視不同來源和不同格式數(shù)據(jù)的集成融合,強(qiáng)調(diào)不同部門、不同學(xué)科的協(xié)作。IEEE計算機(jī)學(xué)會最近發(fā)布了2014年的計算機(jī)技術(shù)發(fā)展趨勢預(yù)測報告,重點強(qiáng)調(diào)“無縫智慧(seamless intelli-gence)。發(fā)展大數(shù)據(jù)的目標(biāo)是要獲得協(xié)同融合的“無縫智慧”。
數(shù)據(jù)挖掘的價值是用成本換來的,不能不計成本,盲目建設(shè)大數(shù)據(jù)系統(tǒng)。目前全國各地都在建設(shè)大數(shù)據(jù)中心,呂梁山下都建立了容量達(dá)2PB以上的數(shù)據(jù)處理中心。許多城市公安部門要求存儲3個月以上的高清監(jiān)控錄像。這些系統(tǒng)的成本都非常高。我們不要攀比大數(shù)據(jù)系統(tǒng)的規(guī)模,而是要比實際應(yīng)用效果,比完成同樣的事消耗更少的資源和能量。先抓老百姓最需要的大數(shù)據(jù)應(yīng)用,因地制宜發(fā)展大數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10