
正確的理解,是玩轉(zhuǎn)大數(shù)據(jù)的前提
眼下,無論是高校還是科研機(jī)構(gòu),以“大數(shù)據(jù)”為關(guān)鍵詞的研討會一撥接著一撥,云計算、物聯(lián)網(wǎng)、智能終端……這些新概念串燒著出現(xiàn),仿佛“大數(shù)據(jù)(數(shù)據(jù)分析師)”正撬動著一個非“技術(shù)宅”免進(jìn)的新世界。
到底什么是大數(shù)據(jù)的真面目?英國帝國理工學(xué)院終身教授、帝國理工數(shù)據(jù)科學(xué)研究所所長郭毅可給出的卻是一個舉重若輕的解釋?!按髷?shù)據(jù)首先不是概念,而是一種現(xiàn)象、一種新發(fā)現(xiàn)的資源。就如同人類發(fā)現(xiàn)了新的石油一樣——對大數(shù)據(jù)的發(fā)掘意味著可以創(chuàng)造財富,也正因此,大數(shù)據(jù)(數(shù)據(jù)分析師認(rèn)證)會引發(fā)一系列的技術(shù)革命?!?
9個月前,郭毅可接過上海大學(xué)的聘書,成為該校計算機(jī)學(xué)院院長。而在剛剛過去的2015年,這位學(xué)者走進(jìn)更多中國人的視線,乃是因為國家主席習(xí)近平在訪英時參觀了郭毅可在帝國理工的研究所并聽取了他的關(guān)于大數(shù)據(jù)研究的報告。這位學(xué)者是如何玩轉(zhuǎn)大數(shù)據(jù)的,在上海大學(xué)計算機(jī)學(xué)院,本報記者獨家專訪了郭毅可教授。
大數(shù)據(jù)牽引計算機(jī)發(fā)展新方向:過去的支流將是今后的主流
對于大數(shù)據(jù),學(xué)界說法很多。按照郭毅可的看法,大數(shù)據(jù)其實一直存在,只是發(fā)展至今,它成為一種像電、石油一般可以創(chuàng)造財富和價值的資源時,開始引發(fā)上、下游的一系列技術(shù)革命。
由此,各種玄乎的、計算機(jī)專家碰頭時如數(shù)家珍的新概念,在郭毅可的解讀中變得十分容易理解。比如,大數(shù)據(jù)的生成需要各種儀器,所以物聯(lián)網(wǎng)、醫(yī)療基因測序等得以生成各種數(shù)據(jù)的儀器設(shè)備便風(fēng)生水起。再如,對大數(shù)據(jù)這種“資源”進(jìn)行處理,需要大規(guī)模使用計算機(jī),“云計算”、智能終端的重要性得以凸顯,它們不僅處理數(shù)據(jù),也同時輸送數(shù)據(jù),繼而產(chǎn)生新數(shù)據(jù)。
“在大數(shù)據(jù)所引發(fā)的一系列技術(shù)革命中,最為重要的是它對計算機(jī)科學(xué)的發(fā)展方向產(chǎn)生了根本性的影響?!惫憧烧f,因為處理大數(shù)據(jù)的客觀需要,計算機(jī)的“產(chǎn)出”正在發(fā)生改變。過去,計算機(jī)主要被用于模擬、高性能計算以及處理管理信息,而現(xiàn)在,計算機(jī)則被看作是大數(shù)據(jù)產(chǎn)品的生成器。所以,在計算機(jī)業(yè)界,包括高效的數(shù)據(jù)處理技術(shù)、機(jī)器學(xué)習(xí)等,眼下都成了最熱門的研究方向。
“更直白地說,步入大數(shù)據(jù)時代,整個計算機(jī)科學(xué)的研究重點和使用方法都變了——計算機(jī)更向“智”的方向發(fā)展。”郭毅可這樣解釋個中緣由:因為要把數(shù)據(jù)生成為各種產(chǎn)品,這本應(yīng)是人的“工作”——人通過觀察做出反應(yīng)和決策。而觀察的行為,其本質(zhì)是收集數(shù)據(jù),反應(yīng)和決策則會產(chǎn)出新的數(shù)據(jù)?!斑@就是為什么類腦計算機(jī)、人工智能會從過去的計算機(jī)科學(xué)的支流變成今天的主流?!惫憧烧f。
受聘上海大學(xué)計算機(jī)學(xué)院院長后,郭毅可專門囑咐工作人員做了一件小事:在學(xué)院大樓門口處,緊挨著計算機(jī)學(xué)院的Logo,全新安裝了一個寫著“智”字的銘牌?!八懈说闹悄芟嚓P(guān)的,都將是計算機(jī)科學(xué)要研究的領(lǐng)域。”作為一名計算機(jī)學(xué)院的教授,他試圖用這一個字來解釋大量學(xué)生們心中糾纏的關(guān)于“計算機(jī)科學(xué)應(yīng)該學(xué)什么”的疑惑。
大數(shù)據(jù)研究:比起賺錢,更值得研究的是民生項目
和傳統(tǒng)的高校計算機(jī)系教授稍有不同,聽郭毅可談他的研究方向,對“大數(shù)據(jù)”一竅不通的外行人都會覺得新鮮。而他的研究項目合作者中,除了理工科的教授,還有不少從事社會科學(xué)研究的學(xué)者和各路企業(yè)界的人士。最近,他正興致勃勃地和一些媒體界的人士接觸,探討用數(shù)據(jù)可視化的新形式拍紀(jì)錄片,研究目標(biāo)說來很有趣:讓一些“高大上”的政治話題,也能被平頭百姓輕松接受。
以中國的“一帶一路”戰(zhàn)略為例。除了讓國民理解“一帶一路”帶來的諸多益處,如何也同時向沿線的外國民眾解釋好中國的“一帶一路”?按照郭毅可的見解,與其干巴巴地宣傳政策,不如讓數(shù)字來說話。比如,修通一條鐵路后,能為沿線的國家新增多少就業(yè)率,會讓當(dāng)?shù)匚拿ぢ式档投嗌佟⑷丝陬A(yù)期壽命增長多少。
從專業(yè)角度來講,這類“數(shù)據(jù)可視化”的研究是郭毅可目前最感興趣的研究方向。作為學(xué)者,他堅信一點:數(shù)據(jù)除了可以賺錢、創(chuàng)造財富,更大的價值在于服務(wù)民生。
去年10月,習(xí)近平主席造訪英國理工,參觀該校的數(shù)據(jù)科學(xué)研究所時,郭毅可用數(shù)據(jù)可視化的方式,分析了中國人口遷移的情況,“一帶一路”政策的國際影響力、個性化醫(yī)療的推廣以及上海地鐵的負(fù)載分布和應(yīng)急辦法等。
實際上,因為這條公共新聞的披露,很多圈內(nèi)人才恍然大悟:原來上海地鐵運營狀況的“大數(shù)據(jù)”,被送去了帝國理工做分析!
為什么不是上海本地的高校而是帝國理工更受上海地鐵公司的青睞?郭毅可“嘿嘿”一笑,坦然作答:“要知道,倫敦的地鐵可是世界上最古老的,我們‘玩地鐵’可以玩出很多精彩的東西?!?
事實上,這輕描淡寫的一句中,隱藏著很多信息。如郭毅可接受本報記者采訪時所言,在帝國理工的數(shù)據(jù)科學(xué)研究所,他經(jīng)常要接待主動捧著數(shù)據(jù)上門的“客戶”。很多在一些國內(nèi)同行看來被機(jī)構(gòu)、組織所壟斷、難以得手的數(shù)據(jù),卻頻頻對郭毅可所在的研究所“開綠燈”。由此反觀,最近兩年間,奔著大數(shù)據(jù)的美好前景,國內(nèi)很多大學(xué)和研究機(jī)構(gòu)都忙著掛牌成立大數(shù)據(jù)研究機(jī)構(gòu)。但真實的情況往往是,這邊才揭牌,那頭抱怨就來了:堂堂數(shù)據(jù)研究院,卻苦于手上無數(shù)據(jù),必須要自己找尋研究方向。
“沒有數(shù)據(jù)的大數(shù)據(jù)研究院毫無意義?!惫憧芍毖圆恢M:大數(shù)據(jù)研究,關(guān)鍵是要讓數(shù)據(jù)產(chǎn)生價值。因此,“與其抱怨自己拿不到數(shù)據(jù),不如好好思考一下,你的研究能夠為數(shù)據(jù)擁有者解決什么問題?!?
【獨家對話】大數(shù)據(jù)時代,計算機(jī)系應(yīng)辦成教育特區(qū)
就業(yè)率這種指標(biāo),怎么能用來作為計算機(jī)系的KPI?!
文匯報:有人做過統(tǒng)計,在中國的理工科大學(xué)中,開設(shè)專業(yè)最多、錄取人數(shù)最多的就是計算機(jī)專業(yè)。所以在不少省市教育主管部門發(fā)布的高校本科專業(yè)預(yù)警名單中,計算機(jī)專業(yè)這兩年頻頻上榜。作為上海大學(xué)新任的計算機(jī)學(xué)院院長,您對這樣的情況怎么看,怎么評價?
郭毅可:請問現(xiàn)在是什么時代?“大眾創(chuàng)新、萬眾創(chuàng)業(yè)”、“互聯(lián)網(wǎng)+”!請問在高校,哪個專業(yè)和它們最對口?答案肯定是計算機(jī)專業(yè)。所以誰要是說計算機(jī)專業(yè)沒前途,我肯定不認(rèn)同。關(guān)鍵的問題在于,高校的計算機(jī)專業(yè)有點跟不上形勢發(fā)展,這個我們必須要承認(rèn),要拿出解決的方案。
但在此之前,我要指出一點,把計算機(jī)專業(yè)列入本科預(yù)警名單似乎不太合理。
我們首先要問,統(tǒng)計學(xué)意義上的“計算機(jī)專業(yè)”到底指什么?如果把那些從事計算機(jī)制造的納入統(tǒng)計,那么專業(yè)就業(yè)率低,或許可以理解;但事實上,目前響應(yīng)“互聯(lián)網(wǎng)+”,在互聯(lián)網(wǎng)上工作的人都在從事計算機(jī)科學(xué)。所以,拿“就業(yè)率”這個指標(biāo)去作為大學(xué)計算機(jī)專業(yè)的KPI(關(guān)鍵績效指標(biāo)),實在太不合理了。計算機(jī)專業(yè)辦得好不好?需要用創(chuàng)業(yè)率去考核,而不是學(xué)生的簽約率。
無論是在美國還是英國,一流大學(xué)計算機(jī)系最拔尖的學(xué)生基本上都去創(chuàng)業(yè)了,二流的去了金融機(jī)構(gòu)。如果今天我們的高校還在拿簽約率、進(jìn)500強(qiáng)企業(yè)作為衡量計算機(jī)專業(yè)辦得好不好的標(biāo)準(zhǔn),這種陳舊的管理觀念真是要改一改了。
計算機(jī)專業(yè)不是授課授出來的,而是打拼出來的
文匯報:正如您所說,大數(shù)據(jù)時代的到來對計算機(jī)科學(xué)產(chǎn)生了根本性的影響。計算機(jī)科學(xué)發(fā)展如此迅猛,大學(xué)教育應(yīng)該怎么辦?
郭毅可:計算機(jī)科學(xué)發(fā)展正在迎來最好的時期。已有一些科學(xué)家預(yù)言,未來25年內(nèi)(數(shù)據(jù)分析培訓(xùn)),計算機(jī)將達(dá)到人腦水平,當(dāng)然,這會對人類社會的發(fā)展產(chǎn)生多方面的影響和沖擊,但是這也是計算機(jī)科學(xué)發(fā)展歷史上第一次接近到理想的邊緣——和人一樣,具有智慧。
所以大學(xué)目前需要應(yīng)對的危機(jī)并不是計算機(jī)科學(xué)的危機(jī),而是計算機(jī)專業(yè)辦學(xué)的危機(jī)??紤]到計算機(jī)迅猛的發(fā)展態(tài)勢,大學(xué)計算機(jī)學(xué)院需要辦成一個教育特區(qū),需要定制課程和教育方案。打個最簡單的比方,我回國后發(fā)現(xiàn),很多大學(xué)計算機(jī)系的學(xué)生花了很多時間在聽課、聽滿堂灌的大課。我覺得很奇怪,因為在帝國理工,計算機(jī)系學(xué)生上課的時間很少,都是小班授課,老師講課速度極快,學(xué)生們更多的時間是在實驗室里做各種項目??傊痪湓?,計算機(jī)專業(yè)不是授課授出來的,而是打拼出來的。
中國高校對老師的要求是“全才”,而我們也需要同時用好“偏才”
文匯報:理想的教學(xué),關(guān)鍵在師資。您回國后出任學(xué)院院長,對本土教師有何評價?按照您的改革設(shè)想,一旦學(xué)院課程改革啟動,本土教師能夠承擔(dān)起重任嗎?
郭毅可:我無法對中國大學(xué)教師的總體水平作評價,但就我在上海大學(xué)擔(dān)任院長的這9個月的時間,在接觸了大量老師后,我覺得我們的師資非常棒,不管是本土培養(yǎng)的還是國外回來的,水平并不差。而眼下的關(guān)鍵問題是,要讓老師專注地做他們真正有興趣的事情,而不是為了滿足各種指標(biāo)、考評的需要,讓他們忙得團(tuán)團(tuán)轉(zhuǎn)。
要說論文、科研指標(biāo),世界上所有的大學(xué)其實都有KPI考核。帝國理工也一樣,但除了校長對外會介紹各類指標(biāo)的完成情況外,教授群體本身不會太在意。
什么是真正一流的大學(xué)?在我看來,就是要凝聚一批學(xué)者,他們以為人類做出重大貢獻(xiàn)、產(chǎn)生讓人類銘記的研究為目標(biāo)。有了這樣一批學(xué)者當(dāng)老師,繼而把做科研的樂趣傳遞給年輕的學(xué)生,讓他們覺得青春時代受到很好的教育——這樣的大學(xué)就是一流大學(xué)。
從國外回來,我一個比較明顯的感受是,中國很多高校對老師的要求是“全才”,希望老師科研教學(xué)樣樣好,而我們的很多老師或許是出于知識分子的尊嚴(yán),每天忙著“達(dá)標(biāo)”,過得有點累。實際上,能夠成為“全才”當(dāng)然好,但有時候“全才”也意味著各方面發(fā)展比較平均。與之相應(yīng),在某些方面具有能力特長的偏才,高校也應(yīng)該學(xué)會揚(yáng)長避短,承認(rèn)差異,給他們以同樣寬闊的發(fā)展平臺。
無論是對學(xué)校、對院系還是對教師的考核,KPI是一種有效的方法,但與此同時,它也有不合理之處。因為KPI是“一刀切”的指標(biāo)體系,是會謀殺個性的。在這一方面,我們不妨拿出點中國人的傳統(tǒng)智慧,比如借鑒一下陰陽理論。如果KPI是“陽”,那我們還需要設(shè)計一個更富彈性的評價機(jī)制去加以平衡、綜合。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11