
大數(shù)據(jù)搭臺,萬眾創(chuàng)新唱戲_數(shù)據(jù)分析師
雖然只是東南大學(xué)機(jī)械專業(yè)一名愛玩游戲的學(xué)生,但孔炤卻有可能成為貴州省擺脫交通擁堵困擾的希望。
在2014年12月8日開始的“云上貴州”大數(shù)據(jù)商業(yè)模式大賽—智慧交通算法大挑戰(zhàn)中,孔炤和他的一位同學(xué),組成了一支參賽隊伍,到今年1月18日初賽結(jié)束,這支取名為“機(jī)械師2.0 Doom”的隊伍排名第一。
僅僅一個月的時間,已經(jīng)有3743支隊伍和孔炤一起,在鉆研貴州的交通問題。除了像孔炤一樣的高校學(xué)生,還包括高中老師、銀行職員。他們中的大多數(shù)和一直待在南京的孔炤一樣,并沒有到過這個西南部省份,對智慧交通的概念也并不了解,更吸引他們的是“用大數(shù)據(jù)帶動萬眾創(chuàng)新”這個熱騰騰的概念。
比賽在阿里巴巴大數(shù)據(jù)科研平臺——“天池”上開展,參賽選手可以在這個平臺上獲取貴陽市真實的交通數(shù)據(jù),并通過對這些海量交通數(shù)據(jù)的挖掘,設(shè)置一套可以根據(jù)交通流量情況實時控制紅綠燈變化的系統(tǒng),以最大程度的減少城市擁堵。
“三千支隊伍很了不起,這意味著幾千個人,在同一個數(shù)據(jù)上工作,為貴州提供一個解決方案,這在我們共和國的歷史上從沒有出現(xiàn)過。”在解釋這次比賽的意義時,阿里巴巴的副總裁涂子沛特意提起了不久前結(jié)束的瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇,在論壇開幕式致辭中,國務(wù)院總理李克強將大眾創(chuàng)業(yè)、萬眾創(chuàng)新視為推動中國經(jīng)濟(jì)轉(zhuǎn)型升級的新引擎, “大眾創(chuàng)業(yè)、萬眾創(chuàng)新,蘊藏著無窮的創(chuàng)意和無限的財富,是取之不竭的金礦”。
“現(xiàn)在的社會最需要的就是創(chuàng)新,就全世界的趨勢來講,絕大部分創(chuàng)新都來自中小公司,其中,數(shù)據(jù)又是推動知識經(jīng)濟(jì)和網(wǎng)絡(luò)經(jīng)濟(jì)發(fā)展最重要的資源。”涂子沛說,“我們這次等于是把數(shù)據(jù)準(zhǔn)備好,平臺搭建好,你來了以后剩下的就是創(chuàng)新。
“就是希望通過這種模式,來鼓勵萬眾創(chuàng)新?!彼俅螐娬{(diào)。
對于很多政府部門來說,設(shè)立一支幾千人的數(shù)據(jù)分析團(tuán)隊是不現(xiàn)實的,可是如果把數(shù)據(jù)開放出來,自然就會有很多人來為你服務(wù)
孔炤至今也不太清楚自己是怎么接觸到大數(shù)據(jù)的。他的研究課題本來與機(jī)械制造相關(guān),后來“好像自然而然就過渡來了”。
曾經(jīng),利用課余時間,孔炤為“天天愛消除”之類的游戲?qū)戇^代碼,通過截取并分析游戲中的數(shù)據(jù),模擬人的鼠標(biāo)動作,來實驗游戲到底能玩到多少關(guān)。
在這個1990年底出生的男孩看來,這次由貴州省經(jīng)濟(jì)和信息化委員會、貴州省交通運輸廳和阿里巴巴集團(tuán)共同舉辦的比賽,和一場游戲并沒有太大差別。設(shè)計根據(jù)交通狀況自動變換的信號燈,也被他看成一個基于大數(shù)據(jù)的人工智能系統(tǒng)。
“接觸大數(shù)據(jù)的時候就是這邊看一點,那邊學(xué)一點,也一直沒有辦法實踐,這次正好是個機(jī)會。”孔炤說。
作為孔炤的競爭對手之一,袁光浩參與比賽的原因是對貴陽擁堵的切身感受。“兩三百米的路口,都要堵三四十分鐘?!边@位土生土長的貴陽人,一直希望能夠找到辦法解決這個多山城市的擁堵問題,直到從報紙上看到了比賽的消息,“當(dāng)然就有一種共鳴”。
但已經(jīng)畢業(yè)十多年的袁光浩其實并不太熟悉大數(shù)據(jù),雖然之前曾在北京和深圳的IT公司工作,但四五年前因為家庭的原因返回貴陽,一直在為中學(xué)生講授數(shù)學(xué)。他也想找到幾個同伴組隊參賽,可身邊那些年近四十歲的同事和朋友都在忙于為生計奔波,他只好自己一個人撐起一個叫“山民”的參賽隊伍。由于每天白天都要講課,他只有晚上才能有時間寫代碼。為了提交自己的第一次運算結(jié)果,他熬了兩三個晚上。
對于大多數(shù)參賽選手而言,通過大數(shù)據(jù)計算出紅綠燈的最優(yōu)變換策略并不是一件容易的事。作為專業(yè)學(xué)習(xí)大數(shù)據(jù)挖掘的碩士研究生,來自澳門大學(xué)的黃亞軍和董理共同組成了一支參賽隊伍,從2015年元旦過后提交第一個代碼,到1月18日初賽結(jié)束,他們必須每天更新一次自己寫的算法,才能保證一個不錯的成績。
“大數(shù)據(jù)的算法沒有最好,只有更好,我們現(xiàn)在把數(shù)據(jù)開放出來,調(diào)動更多的人參與,就一定能創(chuàng)造出更優(yōu)化的方案?!弊鳛樽钤鐚⒋髷?shù)據(jù)概念引入國內(nèi)的研究者之一,涂子沛已經(jīng)先后出版了兩本以大數(shù)據(jù)為主題的書,書中記錄了許多有關(guān)數(shù)據(jù)開放增進(jìn)社會福利的故事。
在美國紐約,鼠患曾是一個讓城市管理者頭疼的問題,市政府的官員稱要和老鼠“賽跑”,衛(wèi)生部門還不斷被指責(zé)對鼠患采取的應(yīng)對措施不足。2004年1月,紐約市衛(wèi)生廳開放了全市歷次衛(wèi)生檢查和受理投訴的數(shù)據(jù),民間就有數(shù)據(jù)愛好者利用這些數(shù)據(jù)做了一個可視化應(yīng)用,被稱為紐約地區(qū)的“老鼠指數(shù)”。
“賽跑”仍在繼續(xù),人們終于找到了捷徑——可以通過地圖顏色的深淺直觀地了解哪個地區(qū)鼠患嚴(yán)重,采取預(yù)防或治理措施,或者干脆避開這些區(qū)域。還可以點進(jìn)每個地區(qū)了解其中被發(fā)現(xiàn)有老鼠的餐廳總數(shù)以及哪個餐廳在衛(wèi)生檢查中被評為不合格。
“以這樣的方式,政府可以獲得很多東西,比如探討公共數(shù)據(jù)怎么用,城市問題怎么解決,如何凝聚很多數(shù)據(jù)人才。” 涂子沛告訴記者,“對于很多政府部門來說,設(shè)立一支幾千人的數(shù)據(jù)分析團(tuán)隊是不現(xiàn)實的,可是如果把數(shù)據(jù)開放出來,自然就會有很多人來為你服務(wù)?!?/span>
當(dāng)中國人對數(shù)據(jù)充滿熱情,充滿創(chuàng)新力的時候,你才發(fā)現(xiàn)這個社會慢慢變了
“大數(shù)據(jù)”的概念開始在國內(nèi)被廣泛傳播是2012年的事情,但在阿里巴巴集團(tuán)負(fù)責(zé)高校合作的王聽看來,不到3年時間里,這個概念已經(jīng)“紅得發(fā)紫”,“高校里一半以上關(guān)于計算機(jī)的講座都是和大數(shù)據(jù)有關(guān)”。
然而,相比于概念的走紅,關(guān)于大數(shù)據(jù)的研究現(xiàn)實,卻并不理想?!案咝W龅幕旧隙际腔谛?shù)據(jù)或是純理論的研究,他們拿到的數(shù)據(jù)很多是靠關(guān)系,甚至是黑市,一般都缺少比較有價值的數(shù)據(jù)。年輕人能夠去實際感受和研究大數(shù)據(jù),還是挺奢侈的一件事。”王聽說,正因如此,他們才有了把一部分?jǐn)?shù)據(jù)向社會開放的想法。
“數(shù)據(jù)作為一種特殊的創(chuàng)新資源,它永遠(yuǎn)不會被消耗,它的能量、價值會在層層使用中不斷被傳遞,放大?!蓖孔优娓嬖V記者,在美國交通部開放了航班數(shù)據(jù)之后,民間的一位程序員僅用一個月的時間就開發(fā)了一套航班延誤的免費查詢系統(tǒng)。這個來自民間的程序可以給出所有航班的延誤大排名,并藉此間接推動了各個航空公司的服務(wù)效率。
相似的故事也曾出現(xiàn)在中國。自2014年3月份開始,在“天池”平臺上開展的天貓推薦算法挑戰(zhàn)賽中,阿里巴巴嘗試開放了天貓用戶訪問的海量數(shù)據(jù)。
誰也沒有想到,這場最初只有兩個人負(fù)責(zé)的數(shù)據(jù)開放試驗,激發(fā)出了意想不到的能量。本來預(yù)計有1500~2000支隊伍參賽的目標(biāo),在開始報名后第三天就實現(xiàn)。一周后,報名的參賽隊伍達(dá)到4000支,最終這個數(shù)目為7276支,分布在全球14個國家和地區(qū)。
中國科學(xué)技術(shù)大學(xué)的碩士研究生陳誠是這些大數(shù)據(jù)研究隊伍中年輕的一員。此前,對于他所在的實驗室來說,獲取數(shù)據(jù)的途徑主要依靠國外公開的免費數(shù)據(jù),而這些數(shù)據(jù)大多只有數(shù)百行,但僅阿里巴巴去年公布的數(shù)據(jù),就達(dá)到5.7億條。
在阿里巴巴那場根據(jù)過去4個月天貓用戶的行為,預(yù)測他們是否會購買某件商品的比賽中,最終有3支隊伍和來自阿里巴巴的工程師對決,這些學(xué)生們讓天貓的預(yù)測比之前優(yōu)化超過15%,拿走了百萬元的大獎。而進(jìn)入復(fù)賽的陳誠,準(zhǔn)備依靠這些來自阿里巴巴的真實商業(yè)數(shù)據(jù),完成自己的碩士畢業(yè)論文。
“當(dāng)中國人對數(shù)據(jù)充滿熱情,充滿創(chuàng)新力的時候,你才發(fā)現(xiàn)這個社會慢慢變了?!痹?jīng)在美國工作多年的涂子沛向記者感慨。
事實上,相似的故事也發(fā)生在這次大賽上。已經(jīng)五六年沒寫過代碼的袁光浩,在參加比賽的十幾天時間里,每天都要晚上兩點以后睡覺,那是“天池”平臺規(guī)定每天提交算法的最后時間。
來自澳門大學(xué)的黃亞軍和董理則有更大的抱負(fù),他們把自己的隊伍命名為Sliver Bullet(銀子彈)。
“小說里面射殺狼人用普通子彈是不行的,必須要有銀子彈,我們就是想找到一個智慧交通的終極解決辦法。”他解釋。然后,這位男孩不好意思地笑了笑,“這個口氣是不是太大了”。
在大數(shù)據(jù)時代,開放是鼓勵大眾創(chuàng)業(yè)、萬眾創(chuàng)新的必由之路
與“天池”平臺之前的大數(shù)據(jù)比賽類似,此次關(guān)于貴州智慧交通的比賽,也是依據(jù)開放的海量數(shù)據(jù)進(jìn)行。其中不僅包括高德地圖的交通數(shù)據(jù),也包括了貴陽市公交車和出租車的GPS信息。
“這個項目其實源于云上貴州項目?!蓖孔优娼榻B,“政府上云是國內(nèi)提的很早的項目,當(dāng)我們把云資源給政府的時候,政府就像拿到了一個皇冠,但發(fā)現(xiàn)皇冠上沒有明珠。這些明珠其實就是數(shù)據(jù),需要政府自己掏出來?!?/span>
某種意義上,政府?dāng)?shù)據(jù)實現(xiàn)開放要比商業(yè)機(jī)構(gòu)更不容易?!暗览砗芎唵危瑪?shù)據(jù)代表權(quán)力,誰都知道數(shù)據(jù)是命根子?!蓖孔优娓嬖V記者,“其實現(xiàn)在之所以拿出交通的數(shù)據(jù)讓大家比賽,不僅是因為交通和人們的關(guān)系最為緊密,也是因為交通數(shù)據(jù)的敏感性比較低?!?/span>
這次比賽的參賽者之一游明琦曾對此感受深刻。從美國威斯康辛大學(xué)畢業(yè)后,他回到自己的家鄉(xiāng),選擇加入貴陽市一家成立不久的創(chuàng)業(yè)公司。
這家公司的主要業(yè)務(wù)是研發(fā)一款智行公交的APP。但如何獲取數(shù)據(jù),卻成了這個創(chuàng)業(yè)團(tuán)隊遇到的最大問題之一。“比如公交車的GPS數(shù)據(jù)分屬不同的公司,并沒有哪個地方可以統(tǒng)一獲得,你就必須一個公司一個公司地談條件,簽合同?!庇蚊麋f。
“在最近全球經(jīng)濟(jì)下行的趨勢下,我們最需要的就是創(chuàng)新,而數(shù)據(jù)是推動創(chuàng)新最重要的資源,這已經(jīng)是非常清楚的,如果不開放,拿什么來實現(xiàn)萬眾創(chuàng)新。”涂子沛說。
事實上,就在幾天前的1月16日,國務(wù)院印發(fā)了《關(guān)于促進(jìn)云計算創(chuàng)新發(fā)展培育信息產(chǎn)業(yè)新業(yè)態(tài)的意見》,其中不僅鼓勵政府加大購買云服務(wù)的能力,還要求在保障信息安全和個人隱私的前提下,探索部分?jǐn)?shù)據(jù)資源向社會開放,并且政府部門間數(shù)據(jù)要共享。
“在大數(shù)據(jù)時代,開放是鼓勵大眾創(chuàng)業(yè)、萬眾創(chuàng)新的必由之路。”涂子沛強調(diào)。
如今,初賽已經(jīng)結(jié)束,經(jīng)過十幾天的努力,一個人奮戰(zhàn)的袁光浩現(xiàn)在排名第13。這位數(shù)學(xué)老師告訴記者,以前,自己曾經(jīng)想過怎樣把人們手中的智能手機(jī),變成一個實時指導(dǎo)人們出行的工具,“就像你身邊坐了一個熟悉當(dāng)?shù)芈窙r的貴陽人”。
某種意義上,是這些來自交通部門的大數(shù)據(jù)重燃了他的創(chuàng)新夢。袁光浩對記者說,在比賽結(jié)束后,他想辭掉教師的工作,重返他所鐘愛的IT業(yè), “如果可以的話,就把它做出來,應(yīng)該對人們還是有些價值的”。
這一刻,這個已入中年的男人仿佛一下子找回了自己年輕時候的沖動。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
訓(xùn)練與驗證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對數(shù)據(jù)的需求已從 “存儲” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11