
編者語:大數(shù)據(jù)不是數(shù)據(jù)量的簡單刻畫,也不是特 定算法、技術或商業(yè)模式上的發(fā)展,而是從數(shù)據(jù)量、數(shù)據(jù)形態(tài)和數(shù)據(jù)分析處理方式,到理念和形態(tài)上重大變革的總和——大數(shù)據(jù)是基于多源異構(gòu)、跨域關聯(lián)的海量數(shù) 據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學范式、生活方式和觀念形態(tài)上的顛覆性變化的總和。
大數(shù)據(jù)終于落地了,打開水與學習成績緊密相關
2014年10月15日,以“阿里與復雜?前沿與應用”為主題的第一屆阿里巴巴復雜科學前沿論壇在杭州阿里巴巴西溪園區(qū)隆重開幕。以下是電子科技大學教授周濤的發(fā)言。
大數(shù)據(jù)的三股驅(qū)動力
大家上午好,在座的大多數(shù)都是老朋友,我今天要給大家介紹的應該是你們所有報告里最簡單的一個。原來我想是一個比較科普性的場合,給大家介紹一個非常簡單的案例讓大家看一下大數(shù)據(jù)是怎樣影響我們的科學和教育的。
首先簡單說什么是大數(shù)據(jù)? 我在思考大數(shù)據(jù)的時候看中的是他內(nèi)在的三股驅(qū)動的力量。
一股力量是數(shù)據(jù)總量在飛速的變化。比如淘寶現(xiàn)在有10億商品,這就帶來大數(shù)據(jù)時代的第一個矛盾:飛速爆炸增長的數(shù)據(jù)量和普通人甄別數(shù)據(jù)的能力之間的矛盾,也叫做信息過載,因此才有今天的淘寶上的“猜你喜歡”等等的應用。
第二股是數(shù)據(jù)形態(tài)發(fā)生了巨大的變化, 以前處理的絕大多數(shù)是表格類的數(shù)據(jù),用一些非常簡單的辦法就可以得到變量之間的關聯(lián),以及作一些簡單的預測,但是現(xiàn)在80%的數(shù)據(jù)從去年開始都不再是表格 類的數(shù)據(jù),包括語音、視頻、圖像、空間移動的軌跡、網(wǎng)絡等等,怎么從這些非結(jié)構(gòu)化的數(shù)據(jù)中挖掘出有價值的信息,是我們第二個大挑戰(zhàn)。
第三是大變化, 尤其是阿里的同事能夠感覺到,你們通過大量投資去購買了很多戰(zhàn)略性的企業(yè),包括從政府的各個部門獲取數(shù)據(jù),這就使得第一次有機會實現(xiàn)某種意義上的數(shù)據(jù)關聯(lián) 形態(tài)的變化,以前大多數(shù)據(jù)是孤立的,但是現(xiàn)在我們基于一個人,有他在高德地圖上行車的軌跡數(shù)據(jù),知道他的工作地點、家庭住址等等,可以有他淘寶天貓的購物 數(shù)據(jù),還有他來往上的一些交流數(shù)據(jù),還能了解這個人在微博中說了什么話,甚至在某些城市還有他的醫(yī)保、社保、犯罪記錄的數(shù)據(jù)。那么這樣的話,我們可以獲得 一個一加一大于二的價值,這些才是我們大數(shù)據(jù)背后的三股力量,他能推動我們未來的服務,從一個全體化的服務變成群體化再到個體化。
大數(shù)據(jù)時代科研與教育的變化
今天主要介紹的不是商業(yè)模式的變化而是大數(shù)據(jù)的科學和教育。他有什么新的理念和方法?傳統(tǒng)的科學是有數(shù)據(jù)和理論我們才能進行解釋,做預測、控制。大 家最熟悉的最成功的就是QED,可以把一個小的粒子的概率壽命精確到小數(shù)點后七八位都還是正確的,這是因為他背后有一套完整的量子電動力學的理論。那么有 了這些預測的結(jié)果我們能夠?qū)崿F(xiàn)控制。這些控制可能是在比較低的溫度下,對單原子的控制。那么它的前提是建立在一套有效的科學理論上。但是剛才王飛躍老師以 及大家講過,也包括大家從谷歌這么多年發(fā)展中感受到的,我們有一句話叫做“科學應該向谷歌學什么”?現(xiàn)在大數(shù)據(jù)科學產(chǎn)生的某種變化,我有了數(shù)據(jù)和理論才能 進行完整的解釋,但是我沒有理論只有數(shù)據(jù)我也可以做預測和控制。舉個例子谷歌利用海量的數(shù)據(jù),利用5000萬搜索關鍵詞的數(shù)據(jù),并和疾病控制中心里面每天 報告的傳染病、流感的患病人數(shù)進行對比,找到100個最有關聯(lián)的數(shù)據(jù),通過非常簡單的多變量的線性回歸找到45個,用45個最關聯(lián)的關鍵詞進行預測。它并 不知道為什么搜索某個特定的關鍵詞可能會以什么樣的形式影響患病的人數(shù),但是他利用這種大數(shù)據(jù)分析的辦法,可以直接對下一周有多少人患流感進行比較精確的 預算,這些都是以前我們所沒有經(jīng)歷過的。
第 二個大變化就是剛才有老師也談到了,以前在實驗室小規(guī)??刂茖嶒炏碌陌攵康目茖W包括心理學、管理學、社會學、社會心理學等等將走向基于大規(guī)模非控制數(shù)據(jù) 分析的定量科學。王飛躍老師舉了一些非常好的例子,就是原來處理社會科學的辦法,往往是非常小規(guī)模的實驗。但是現(xiàn)在通過一些人工科學,通過這種大數(shù)據(jù)的采 集,真正把國家制度納入到科學的層面,以前這僅僅是一個基于經(jīng)驗的可以說是半定量的科學。以前做一次實驗,比如說探討宗教問題,我看到最大規(guī)模的實驗,無 非就幾百上千人通過問卷的形式。但是現(xiàn)在我們已經(jīng)找到有8000多人是有宗教標簽的,在微博上也有70多萬人。那么其中分了不同的教派,通過分析我們可以 了解宗教的不同教派之間是不是有非常緊密的聯(lián)系,歷史上有一些彼此不大對頭的教派是不是連接比較稀松,他們之間說話、用語到底是用褒義詞多還是貶義詞多, 用有暴力傾向的詞多,還是比較友善的詞多,我們能夠宏觀的得到哪個宗教有最強的反社會傾向等等。這很明顯,的確存在某些宗教比其他宗教更強的反社會性、封 閉型。那么我們還可以做很多的事情,比如說我們可以大規(guī)模研究同性戀的問題,大規(guī)模的研究農(nóng)村人搬遷到城市以后能不能適應城市,能不能融入城市。我們給志 愿者發(fā)手機,觀察這些從農(nóng)村搬到城市的人看他能不能融入城市等等,這些研究方式在以前是難以想象的。
科研合作的例子
我 這里給大家舉幾個例子。第一個例子我們知道以前在艾爾多斯的時代,他終生未娶,到處漂泊的,見到一個數(shù)學家有一個好想法,他被認為是一個特立獨行的人,但 是他推動了整個數(shù)學研究從孤立的研究變成大規(guī)模的合作,因為他自己一生發(fā)表了1500多篇論文,其中有900多篇都是和人合作的,所以我們才有了艾爾多斯 數(shù)。最近有兩篇論文想去看到底現(xiàn)在我們是不是有更多的論文是合作的,這些合作的問題是不是帶來更大的影響力,或者有更高的科學成就。他們通過兩篇英文的文 章,在2007年和2008年,一篇分析了將近2000萬篇學術論文和200多萬份美國專利。他們發(fā)現(xiàn)除了人文藝術主要還是單打獨斗以外,不管是專利、科 學、還是工程統(tǒng)統(tǒng)都有一個表現(xiàn),就是合作的論文變得更多,而且合作論文的人數(shù),合作者的平均數(shù)目也變得更多,并且合作論文總的影響力,平均而言要比單打獨 斗的論文高,專利也是這樣。這是第一次證明了這一點,對當時的影響是非常大的。
在 08年的時候通過研究美國600多個大學400多萬篇論文發(fā)現(xiàn),大學與大學之間通過合作也會起到很大的作用,比如說跨學校合作的文章影響力更大,尤其是強 的大學之間聯(lián)手更好,強的和弱的聯(lián)手,弱的大學可以提高,強的大學不會受損傷,但是弱學校之間聯(lián)合比單打獨斗效果更差。兩個企業(yè)肯定也是這樣的,大家都是 在生死線上掙扎,要不要抱團還是一個問題。
有 了這些基礎,我們在電子科技大學成立了一個大學研究中心,這是一個很大的機構(gòu),有60多個老師,包括有5個千人計劃的獲得者,還有很多拿國家獎的。其中有 一個很小的團隊是專門研究科技情報的。我們就發(fā)現(xiàn)頂尖的大學它的跨學校甚至跨國家合作的文章所占的比例遠比二流三流的學校更大。由于有了這樣的研究,今年 在給老師評職稱和博士生畢業(yè)的時候,我們就把這些跨學校的非利益合作的論文加了一個權重因子算到老師的工作量或是算到學生的畢業(yè)要求中,這就整體的改變了 電子科大對學生培養(yǎng)和對教師職稱評定的思路。這個例子說明,要說服學校做一個新政策就需要用數(shù)據(jù)說話,比如我要去說服我的校長改變一下我們教師評聘原則, 當然在我們中心我新聘的時候可以用自己的東西,因為是一個特區(qū),但是我要改變學校,自己沒有辦法,但是當我把這些數(shù)據(jù)提供出來的時候,就很順利通過了。
社交關系與大數(shù)據(jù)
再 講一個例子,也是一篇文章,以前我們在社會學中都有很重要的東西,大家很多是做復雜網(wǎng)絡的,為什么社會網(wǎng)絡是在社會學中逐漸變成一個重要的學科,很大層面 上是基于一個假設,說的是認識哪些人和這些人交流的緊密不緊密、關系深不深以及認識的朋友圈子多樣性強不強,這些東西放在一起是我的社會資源,比如說我經(jīng) 常和習近平老師、李克強老師交流,那我的社會資源肯定就很強,你平時都是和犯罪分子打交道比較多,你又不是警察,你可能也是高危犯罪分子,這也是我們做了 一些研究的。從這個意義上講,我們的社會他的假設就是我可以把我的社會資本轉(zhuǎn)變經(jīng)濟資本,就是中國人說的“人脈廣好辦事”。在這樣的文章中最早是一個清晰 的概念,他把當時整個的大不列顛做了一次人口普查,覆蓋了99%的人口,在這個6500萬手機用戶上,主要來自于3萬多個行政區(qū),他把每個行政區(qū)看成一個 節(jié)點,統(tǒng)計這個行政區(qū)和其他所有行政區(qū)通話的強度,最后算出了他的通話多樣性看作這個行政區(qū)基于手機通信所得到的熵,發(fā)現(xiàn)這個行政區(qū)的綜合表現(xiàn),包括教 育、GDP、犯罪、教育。大家看到這個圖,這個點是平均值,關聯(lián)量達到0.38,非常強的關聯(lián)。
昨 天我們聽羅馬大學的老師給我們講怎么樣通過一個算法我們來看國家發(fā)展的情況,在一個二維平面上比較他的GDP和fitness。其實我們最近做了非常簡單 的工作,我們就是統(tǒng)計一個城市,一個是總的GDP,還有一個是微博的活躍數(shù)。我們總是覺得人口越多經(jīng)濟水平越高的總是會上榜,但是我們發(fā)現(xiàn)微博的活躍程度 和他的GDP是很強的關聯(lián),有些地方人群的微博比GDP還要活躍。我們找到像三亞這樣的旅游服務型的城市,有五個城市非常獨特,他微博很不活躍,但是 GDP非常高??梢韵胂?,我們基本上能預測,5到10年內(nèi)它會出現(xiàn)一個比較大的問題,因為他的行業(yè)板塊基本上是單個行業(yè),而且又是資源依賴性,重工業(yè)依賴 性。
我再 講兩個例子。這個例子很好玩,也是通過手機數(shù)據(jù)。我們都知道低等生物有一個很大的沖動,他總是希望把自己的基因盡最大可能在大自然里復制出去,但是高等生 物可能不是這樣的,因為你很難想象我們一次深刻的愛情,他的目的只是為了繁衍,然后讓你基因不停的被復制。這個大家可能接受不了,所以說中間有一個問題, 在演化生物學中,人到底是怎么樣把自己的資源放到親代和子代還有自己的配偶中來的呢,他們通過將近5億次的短信和20億次的通話,他問的問題是“一個人他 聯(lián)系最多最好的人到底是誰,什么性別,什么年齡”,他發(fā)現(xiàn)了如果是一個女性就得負一分,男性得正一分,紅色的是女性的曲線,藍色的是男性的曲線,我們發(fā)現(xiàn) 男性在30歲這個階段主要是跟女性,女性是跟男性是最好的朋友,這可能是他的配偶,伴侶。男性總體來說反映慢一些,女孩子18歲的時候已經(jīng)和男孩子很親密 互動的時候,男孩還是和男孩玩。這個問題固然好,但是他們又問了“你的第二好友是誰”,我們看男性在20歲的時候是男性,然而女性的第二好友往往是男性, 但是男性的第二好友已經(jīng)看不出性別的差異,他們想進一步通過數(shù)據(jù)來看為什么會這樣,于是把數(shù)據(jù)展開,上面是兩個25歲的人,右邊是25歲的男性,左邊是 25歲的女性,紅色的代表女性,藍色的代表男性,他的最好的朋友是女性和是男性的分布情況,兩條曲線綜合是1,他們發(fā)現(xiàn)25歲的男性主要還是和25歲的女 性其次是男性,25歲的女性主要和同齡的男性打交道,其次是同性女性。
回 頭看看50歲就不一樣的,左邊是50歲的男性我們發(fā)現(xiàn)一個現(xiàn)象,50歲的很多都是50歲左右的女性是他最好的朋友,其次才是他的子女,這個對于女孩子來說 是好消息。女生就不一樣,50歲的女性主要是跟子女,50多歲一個阿姨,主要關注的是他的子女,他的第二個好友很有可能是他的丈夫,所以第二好友往往是男 性。那么這些都是我們通過數(shù)據(jù)得到的,并不定能夠帶給我們非常大的價值,但是非常的有趣。
最 后講一個例子,這實際上是去年很火的,這篇文章是微軟研究院跟劍橋一起做的。他僅僅是表達你對一篇文章、歌、電影是不是喜歡,利用這個信息可以做很多預 測,有些是讓人很吃驚的,不是說精度很高,大概80%左右,比如說他可以預測這個人是單身還是戀愛,還可以預測你父母是不是離異,包括抽煙喝酒等等,還有 預測你是不是同性戀,總體來說男同性戀更好預測,不知道為什么,這些東西非??膳隆N以诟④浽谧鲆粋€項目,通過看北京同性戀一些酒吧(一個真正的同性戀 可以知道很多這樣的酒吧),哪些人常去這樣的地方,我把大量的數(shù)據(jù)弄出來,可以做很精確的預測。另外大家玩很多手機游戲,很多游戲比如天天酷跑,本來不用 知道我到底在哪里玩,具體怎么玩,僅僅玩這個游戲行為本身,就可以泄露大量的信息,從小了說可以看你是不是一個同性戀,從大了說可以看你是不是在某個軍事 單位、國防單位,我們通過手機、通過暴露的數(shù)據(jù)都可以得到。
大數(shù)據(jù)在當代教育中的應用
大數(shù)據(jù)在教育方面的革命是要真正做到個性化的教育,這是一個大的趨勢。以 前的教育很多都是靠經(jīng)驗,不定量,比如說大學現(xiàn)在學校里面管的很嚴,我們把蒼井空老師很多作品封殺了,不允許大學生看,但是實際上看她的片子里都有大學的 男生,男生這么多,那他們是不是應該學習一下蒼老師的一些著作?這些我們都沒有定量化研究就把它封了。我們現(xiàn)在可以通過無線看到你上了哪些網(wǎng)站,我們再把 匿名化的東西和匿名化的場景對應起來,我們看一下以前經(jīng)常上這個網(wǎng)站的人,這個寢室是不是成績很差,當然這里只能精確到寢室?,F(xiàn)在圖書館里面擺了我們老師 自以為給同學看的最好的書,其實大部分都是老師自己寫的教材,像一些古龍的書一般藏在很隱蔽的角落里,一般都找不到。我們有七年學生借書的數(shù)據(jù),這個學生 未來的成績、出處,好的比如說出國了、好公司了,壞的有些確實沒有畢業(yè),退學了等等。我們用這個想辦法把學生分成不同的等級,然后我們看哪些書在專業(yè)上或 者在其他方面對學生有幫助,好學生看什么書,壞學生看什么書。所以我們希望所有的東西都變成一個定量化。比如說有些選修課,由于教室的原因,只能選40個 人,那么有些教室可以選100個。我們以前只是去看這樣的數(shù)據(jù)就是哪些人成功選了什么課,但是現(xiàn)在不一樣,我們把每個點擊的數(shù)據(jù)記錄下來,就知道很多學生 想選的課沒有選上。我們發(fā)現(xiàn)有些課只有40個人能選,但是有700個學生選了,那這些課未來是不是可以大量的開。這些都是我們定量化的問題。
第二個是個性化的問題?,F(xiàn)在很多遠程教育實際上就是工業(yè)化課堂教育的延伸,是非個性化的。而 我們想把教育變成個性化,比如說一個中學生,我們現(xiàn)在有80多萬的題庫,一個學生可以自己選,我只出選擇題給你做,后面有80多萬的題庫,那么你做了以后 每個知識點的掌握情況怎么樣,我盡可能多出你掌握的不好的題庫等等,那么你隨時就可以看到受教育的情況以及掌握知識點的情況。
國 外有很多例子我就不詳細講了,舉幾個我們做的例子。第一個就是我這里給大家看到的,明年年初會開新聞發(fā)布會,讓媒體里選四個班,我們來預測這四個班的成績 排名。如果大家只是把前一個學期的成績直接挪到后一個學期,平均只能達到80%。怎么做,這里面有一個很關鍵點,就是一個人成績變壞,不是一天兩天變的, 比如說我原來很愛學習,現(xiàn)在變成一個游戲狂,即便如此半年一年兩次考試,我還能提一提,因為原來成績好,期末可以熬個夜。所以說這個成績變壞人的生活模式 先變壞,我們可以提前讓輔導員知道他出了什么問題,然后找他談話,那么幫助他。怎么做?我們通過手機,還有一卡通的數(shù)據(jù)就能分析到很多。我們現(xiàn)在發(fā)現(xiàn)和成 績最強關聯(lián)的是學生打水的數(shù)據(jù),因為我們學校對打水有要求,每500毫升開水要花一分錢,你要刷卡,這是避免大家浪費水。就是通過這一分錢打500毫升開 水的數(shù)據(jù)分析,發(fā)現(xiàn)打水比較少的人成績有好有壞,這個不能說明問題。但是打水多的人成績基本上都比較好,一旦你原來打水很多,現(xiàn)在你突然不怎么打水了,或 者打水少了,就出問題了。很多學生真是這個問題,這個是非常強的信號。
還 有一個例子是好學生差學生進出寢室數(shù)據(jù)。好學生七點多的時候就出寢室了,中午不在,晚上10點半回來,非常有規(guī)律。這個是一個典型的差學生,他白天不出寢 室,下午也不出寢室,但是星期五2點半到星期六12點都不在寢室,這是一個真實的案例。好學生去圖書館,四個多月平均去100多次,差學生去七八次,這些 信號都是非常有趣的,可以幫助我們定量化的進行學業(yè)的預測。
最 后就是管理貧困生。有些學生由于面子的問題,不愿意去街道辦事處的辦證明,因而申請不到貧困助學貸款。我們發(fā)現(xiàn)在電子科大新老校區(qū)中餐和晚餐平均一個人是 7.13塊。如果一個學生連續(xù)一個月56頓都在吃食堂,并且每頓不超過4.6塊,那么我們讓輔導員去他的寢室看一看到底是不是真的很貧困,如果是,征得他 個人同意,我們不像外公布名字,每個月給他打200塊助學貸款。期末的時候還會統(tǒng)計,有這些助學的人到底是不是生活條件有點提高。我們現(xiàn)在發(fā)現(xiàn)提高的有難 度,并不是很明顯,說明這些人還是很節(jié)省。這個我們在想有沒有什么辦法,讓他吃的好一點,這個我們也在思考。第二個就是我們發(fā)現(xiàn)有些貧困生他的消費很高, 他們還在超市里買很多零食,每頓飯也吃很多,我們都知道,因為我們有一卡通數(shù)據(jù)。未來我們下學期要進行一些改變,我們要設定一些預值,把一些貧困生資格取 消掉。這也是我們要做的,通過這些辦法我們想象的是你們要裝貧困生,那你也得裝的辛苦一點。
今天跟大家有機會聊一聊,是給大家講一講大數(shù)據(jù)在科學教育、在高校這個平臺可以做些什么事情,最后謝謝大家。
大數(shù)據(jù)的三股驅(qū)動力
大家上午好,在座的大多數(shù)都是老朋友,我今天要給大家介紹的應該是你們所有報告里最簡單的一個。原來我想是一個比較科普性的場合,給大家介紹一個非常簡單的案例讓大家看一下大數(shù)據(jù)是怎樣影響我們的科學和教育的。
首先簡單說什么是大數(shù)據(jù)? 我在思考大數(shù)據(jù)的時候看中的是他內(nèi)在的三股驅(qū)動的力量。
一股力量是數(shù)據(jù)總量在飛速的變化。比如淘寶現(xiàn)在有10億商品,這就帶來大數(shù)據(jù)時代的第一個矛盾:飛速爆炸增長的數(shù)據(jù)量和普通人甄別數(shù)據(jù)的能力之間的矛盾,也叫做信息過載,因此才有今天的淘寶上的“猜你喜歡”等等的應用。
第二股是數(shù)據(jù)形態(tài)發(fā)生了巨大的變化, 以前處理的絕大多數(shù)是表格類的數(shù)據(jù),用一些非常簡單的辦法就可以得到變量之間的關聯(lián),以及作一些簡單的預測,但是現(xiàn)在80%的數(shù)據(jù)從去年開始都不再是表格 類的數(shù)據(jù),包括語音、視頻、圖像、空間移動的軌跡、網(wǎng)絡等等,怎么從這些非結(jié)構(gòu)化的數(shù)據(jù)中挖掘出有價值的信息,是我們第二個大挑戰(zhàn)。
第三是大變化, 尤其是阿里的同事能夠感覺到,你們通過大量投資去購買了很多戰(zhàn)略性的企業(yè),包括從政府的各個部門獲取數(shù)據(jù),這就使得第一次有機會實現(xiàn)某種意義上的數(shù)據(jù)關聯(lián) 形態(tài)的變化,以前大多數(shù)據(jù)是孤立的,但是現(xiàn)在我們基于一個人,有他在高德地圖上行車的軌跡數(shù)據(jù),知道他的工作地點、家庭住址等等,可以有他淘寶天貓的購物 數(shù)據(jù),還有他來往上的一些交流數(shù)據(jù),還能了解這個人在微博中說了什么話,甚至在某些城市還有他的醫(yī)保、社保、犯罪記錄的數(shù)據(jù)。那么這樣的話,我們可以獲得 一個一加一大于二的價值,這些才是我們大數(shù)據(jù)背后的三股力量,他能推動我們未來的服務,從一個全體化的服務變成群體化再到個體化。
大數(shù)據(jù)時代科研與教育的變化
今天主要介紹的不是商業(yè)模式的變化而是大數(shù)據(jù)的科學和教育。他有什么新的理念和方法?傳統(tǒng)的科學是有數(shù)據(jù)和理論我們才能進行解釋,做預測、控制。大 家最熟悉的最成功的就是QED,可以把一個小的粒子的概率壽命精確到小數(shù)點后七八位都還是正確的,這是因為他背后有一套完整的量子電動力學的理論。那么有 了這些預測的結(jié)果我們能夠?qū)崿F(xiàn)控制。這些控制可能是在比較低的溫度下,對單原子的控制。那么它的前提是建立在一套有效的科學理論上。但是剛才王飛躍老師以 及大家講過,也包括大家從谷歌這么多年發(fā)展中感受到的,我們有一句話叫做“科學應該向谷歌學什么”?現(xiàn)在大數(shù)據(jù)科學產(chǎn)生的某種變化,我有了數(shù)據(jù)和理論才能 進行完整的解釋,但是我沒有理論只有數(shù)據(jù)我也可以做預測和控制。舉個例子谷歌利用海量的數(shù)據(jù),利用5000萬搜索關鍵詞的數(shù)據(jù),并和疾病控制中心里面每天 報告的傳染病、流感的患病人數(shù)進行對比,找到100個最有關聯(lián)的數(shù)據(jù),通過非常簡單的多變量的線性回歸找到45個,用45個最關聯(lián)的關鍵詞進行預測。它并 不知道為什么搜索某個特定的關鍵詞可能會以什么樣的形式影響患病的人數(shù),但是他利用這種大數(shù)據(jù)分析的辦法,可以直接對下一周有多少人患流感進行比較精確的 預算,這些都是以前我們所沒有經(jīng)歷過的。
第 二個大變化就是剛才有老師也談到了,以前在實驗室小規(guī)??刂茖嶒炏碌陌攵康目茖W包括心理學、管理學、社會學、社會心理學等等將走向基于大規(guī)模非控制數(shù)據(jù) 分析的定量科學。王飛躍老師舉了一些非常好的例子,就是原來處理社會科學的辦法,往往是非常小規(guī)模的實驗。但是現(xiàn)在通過一些人工科學,通過這種大數(shù)據(jù)的采 集,真正把國家制度納入到科學的層面,以前這僅僅是一個基于經(jīng)驗的可以說是半定量的科學。以前做一次實驗,比如說探討宗教問題,我看到最大規(guī)模的實驗,無 非就幾百上千人通過問卷的形式。但是現(xiàn)在我們已經(jīng)找到有8000多人是有宗教標簽的,在微博上也有70多萬人。那么其中分了不同的教派,通過分析我們可以 了解宗教的不同教派之間是不是有非常緊密的聯(lián)系,歷史上有一些彼此不大對頭的教派是不是連接比較稀松,他們之間說話、用語到底是用褒義詞多還是貶義詞多, 用有暴力傾向的詞多,還是比較友善的詞多,我們能夠宏觀的得到哪個宗教有最強的反社會傾向等等。這很明顯,的確存在某些宗教比其他宗教更強的反社會性、封 閉型。那么我們還可以做很多的事情,比如說我們可以大規(guī)模研究同性戀的問題,大規(guī)模的研究農(nóng)村人搬遷到城市以后能不能適應城市,能不能融入城市。我們給志 愿者發(fā)手機,觀察這些從農(nóng)村搬到城市的人看他能不能融入城市等等,這些研究方式在以前是難以想象的。
科研合作的例子
我 這里給大家舉幾個例子。第一個例子我們知道以前在艾爾多斯的時代,他終生未娶,到處漂泊的,見到一個數(shù)學家有一個好想法,他被認為是一個特立獨行的人,但 是他推動了整個數(shù)學研究從孤立的研究變成大規(guī)模的合作,因為他自己一生發(fā)表了1500多篇論文,其中有900多篇都是和人合作的,所以我們才有了艾爾多斯 數(shù)。最近有兩篇論文想去看到底現(xiàn)在我們是不是有更多的論文是合作的,這些合作的問題是不是帶來更大的影響力,或者有更高的科學成就。他們通過兩篇英文的文 章,在2007年和2008年,一篇分析了將近2000萬篇學術論文和200多萬份美國專利。他們發(fā)現(xiàn)除了人文藝術主要還是單打獨斗以外,不管是專利、科 學、還是工程統(tǒng)統(tǒng)都有一個表現(xiàn),就是合作的論文變得更多,而且合作論文的人數(shù),合作者的平均數(shù)目也變得更多,并且合作論文總的影響力,平均而言要比單打獨 斗的論文高,專利也是這樣。這是第一次證明了這一點,對當時的影響是非常大的。
在 08年的時候通過研究美國600多個大學400多萬篇論文發(fā)現(xiàn),大學與大學之間通過合作也會起到很大的作用,比如說跨學校合作的文章影響力更大,尤其是強 的大學之間聯(lián)手更好,強的和弱的聯(lián)手,弱的大學可以提高,強的大學不會受損傷,但是弱學校之間聯(lián)合比單打獨斗效果更差。兩個企業(yè)肯定也是這樣的,大家都是 在生死線上掙扎,要不要抱團還是一個問題。
有 了這些基礎,我們在電子科技大學成立了一個大學研究中心,這是一個很大的機構(gòu),有60多個老師,包括有5個千人計劃的獲得者,還有很多拿國家獎的。其中有 一個很小的團隊是專門研究科技情報的。我們就發(fā)現(xiàn)頂尖的大學它的跨學校甚至跨國家合作的文章所占的比例遠比二流三流的學校更大。由于有了這樣的研究,今年 在給老師評職稱和博士生畢業(yè)的時候,我們就把這些跨學校的非利益合作的論文加了一個權重因子算到老師的工作量或是算到學生的畢業(yè)要求中,這就整體的改變了 電子科大對學生培養(yǎng)和對教師職稱評定的思路。這個例子說明,要說服學校做一個新政策就需要用數(shù)據(jù)說話,比如我要去說服我的校長改變一下我們教師評聘原則, 當然在我們中心我新聘的時候可以用自己的東西,因為是一個特區(qū),但是我要改變學校,自己沒有辦法,但是當我把這些數(shù)據(jù)提供出來的時候,就很順利通過了。
社交關系與大數(shù)據(jù)
再 講一個例子,也是一篇文章,以前我們在社會學中都有很重要的東西,大家很多是做復雜網(wǎng)絡的,為什么社會網(wǎng)絡是在社會學中逐漸變成一個重要的學科,很大層面 上是基于一個假設,說的是認識哪些人和這些人交流的緊密不緊密、關系深不深以及認識的朋友圈子多樣性強不強,這些東西放在一起是我的社會資源,比如說我經(jīng) 常和習近平老師、李克強老師交流,那我的社會資源肯定就很強,你平時都是和犯罪分子打交道比較多,你又不是警察,你可能也是高危犯罪分子,這也是我們做了 一些研究的。從這個意義上講,我們的社會他的假設就是我可以把我的社會資本轉(zhuǎn)變經(jīng)濟資本,就是中國人說的“人脈廣好辦事”。在這樣的文章中最早是一個清晰 的概念,他把當時整個的大不列顛做了一次人口普查,覆蓋了99%的人口,在這個6500萬手機用戶上,主要來自于3萬多個行政區(qū),他把每個行政區(qū)看成一個 節(jié)點,統(tǒng)計這個行政區(qū)和其他所有行政區(qū)通話的強度,最后算出了他的通話多樣性看作這個行政區(qū)基于手機通信所得到的熵,發(fā)現(xiàn)這個行政區(qū)的綜合表現(xiàn),包括教 育、GDP、犯罪、教育。大家看到這個圖,這個點是平均值,關聯(lián)量達到0.38,非常強的關聯(lián)。
昨 天我們聽羅馬大學的老師給我們講怎么樣通過一個算法我們來看國家發(fā)展的情況,在一個二維平面上比較他的GDP和fitness。其實我們最近做了非常簡單 的工作,我們就是統(tǒng)計一個城市,一個是總的GDP,還有一個是微博的活躍數(shù)。我們總是覺得人口越多經(jīng)濟水平越高的總是會上榜,但是我們發(fā)現(xiàn)微博的活躍程度 和他的GDP是很強的關聯(lián),有些地方人群的微博比GDP還要活躍。我們找到像三亞這樣的旅游服務型的城市,有五個城市非常獨特,他微博很不活躍,但是 GDP非常高??梢韵胂?,我們基本上能預測,5到10年內(nèi)它會出現(xiàn)一個比較大的問題,因為他的行業(yè)板塊基本上是單個行業(yè),而且又是資源依賴性,重工業(yè)依賴 性。
我再 講兩個例子。這個例子很好玩,也是通過手機數(shù)據(jù)。我們都知道低等生物有一個很大的沖動,他總是希望把自己的基因盡最大可能在大自然里復制出去,但是高等生 物可能不是這樣的,因為你很難想象我們一次深刻的愛情,他的目的只是為了繁衍,然后讓你基因不停的被復制。這個大家可能接受不了,所以說中間有一個問題, 在演化生物學中,人到底是怎么樣把自己的資源放到親代和子代還有自己的配偶中來的呢,他們通過將近5億次的短信和20億次的通話,他問的問題是“一個人他 聯(lián)系最多最好的人到底是誰,什么性別,什么年齡”,他發(fā)現(xiàn)了如果是一個女性就得負一分,男性得正一分,紅色的是女性的曲線,藍色的是男性的曲線,我們發(fā)現(xiàn) 男性在30歲這個階段主要是跟女性,女性是跟男性是最好的朋友,這可能是他的配偶,伴侶。男性總體來說反映慢一些,女孩子18歲的時候已經(jīng)和男孩子很親密 互動的時候,男孩還是和男孩玩。這個問題固然好,但是他們又問了“你的第二好友是誰”,我們看男性在20歲的時候是男性,然而女性的第二好友往往是男性, 但是男性的第二好友已經(jīng)看不出性別的差異,他們想進一步通過數(shù)據(jù)來看為什么會這樣,于是把數(shù)據(jù)展開,上面是兩個25歲的人,右邊是25歲的男性,左邊是 25歲的女性,紅色的代表女性,藍色的代表男性,他的最好的朋友是女性和是男性的分布情況,兩條曲線綜合是1,他們發(fā)現(xiàn)25歲的男性主要還是和25歲的女 性其次是男性,25歲的女性主要和同齡的男性打交道,其次是同性女性。
回 頭看看50歲就不一樣的,左邊是50歲的男性我們發(fā)現(xiàn)一個現(xiàn)象,50歲的很多都是50歲左右的女性是他最好的朋友,其次才是他的子女,這個對于女孩子來說 是好消息。女生就不一樣,50歲的女性主要是跟子女,50多歲一個阿姨,主要關注的是他的子女,他的第二個好友很有可能是他的丈夫,所以第二好友往往是男 性。那么這些都是我們通過數(shù)據(jù)得到的,并不定能夠帶給我們非常大的價值,但是非常的有趣。
最 后講一個例子,這實際上是去年很火的,這篇文章是微軟研究院跟劍橋一起做的。他僅僅是表達你對一篇文章、歌、電影是不是喜歡,利用這個信息可以做很多預 測,有些是讓人很吃驚的,不是說精度很高,大概80%左右,比如說他可以預測這個人是單身還是戀愛,還可以預測你父母是不是離異,包括抽煙喝酒等等,還有 預測你是不是同性戀,總體來說男同性戀更好預測,不知道為什么,這些東西非??膳?。我在跟微軟在做一個項目,通過看北京同性戀一些酒吧(一個真正的同性戀 可以知道很多這樣的酒吧),哪些人常去這樣的地方,我把大量的數(shù)據(jù)弄出來,可以做很精確的預測。另外大家玩很多手機游戲,很多游戲比如天天酷跑,本來不用 知道我到底在哪里玩,具體怎么玩,僅僅玩這個游戲行為本身,就可以泄露大量的信息,從小了說可以看你是不是一個同性戀,從大了說可以看你是不是在某個軍事 單位、國防單位,我們通過手機、通過暴露的數(shù)據(jù)都可以得到。
大數(shù)據(jù)在當代教育中的應用
大數(shù)據(jù)在教育方面的革命是要真正做到個性化的教育,這是一個大的趨勢。以 前的教育很多都是靠經(jīng)驗,不定量,比如說大學現(xiàn)在學校里面管的很嚴,我們把蒼井空老師很多作品封殺了,不允許大學生看,但是實際上看她的片子里都有大學的 男生,男生這么多,那他們是不是應該學習一下蒼老師的一些著作?這些我們都沒有定量化研究就把它封了。我們現(xiàn)在可以通過無線看到你上了哪些網(wǎng)站,我們再把 匿名化的東西和匿名化的場景對應起來,我們看一下以前經(jīng)常上這個網(wǎng)站的人,這個寢室是不是成績很差,當然這里只能精確到寢室?,F(xiàn)在圖書館里面擺了我們老師 自以為給同學看的最好的書,其實大部分都是老師自己寫的教材,像一些古龍的書一般藏在很隱蔽的角落里,一般都找不到。我們有七年學生借書的數(shù)據(jù),這個學生 未來的成績、出處,好的比如說出國了、好公司了,壞的有些確實沒有畢業(yè),退學了等等。我們用這個想辦法把學生分成不同的等級,然后我們看哪些書在專業(yè)上或 者在其他方面對學生有幫助,好學生看什么書,壞學生看什么書。所以我們希望所有的東西都變成一個定量化。比如說有些選修課,由于教室的原因,只能選40個 人,那么有些教室可以選100個。我們以前只是去看這樣的數(shù)據(jù)就是哪些人成功選了什么課,但是現(xiàn)在不一樣,我們把每個點擊的數(shù)據(jù)記錄下來,就知道很多學生 想選的課沒有選上。我們發(fā)現(xiàn)有些課只有40個人能選,但是有700個學生選了,那這些課未來是不是可以大量的開。這些都是我們定量化的問題。
第二個是個性化的問題?,F(xiàn)在很多遠程教育實際上就是工業(yè)化課堂教育的延伸,是非個性化的。而 我們想把教育變成個性化,比如說一個中學生,我們現(xiàn)在有80多萬的題庫,一個學生可以自己選,我只出選擇題給你做,后面有80多萬的題庫,那么你做了以后 每個知識點的掌握情況怎么樣,我盡可能多出你掌握的不好的題庫等等,那么你隨時就可以看到受教育的情況以及掌握知識點的情況。
國 外有很多例子我就不詳細講了,舉幾個我們做的例子。第一個就是我這里給大家看到的,明年年初會開新聞發(fā)布會,讓媒體里選四個班,我們來預測這四個班的成績 排名。如果大家只是把前一個學期的成績直接挪到后一個學期,平均只能達到80%。怎么做,這里面有一個很關鍵點,就是一個人成績變壞,不是一天兩天變的, 比如說我原來很愛學習,現(xiàn)在變成一個游戲狂,即便如此半年一年兩次考試,我還能提一提,因為原來成績好,期末可以熬個夜。所以說這個成績變壞人的生活模式 先變壞,我們可以提前讓輔導員知道他出了什么問題,然后找他談話,那么幫助他。怎么做?我們通過手機,還有一卡通的數(shù)據(jù)就能分析到很多。我們現(xiàn)在發(fā)現(xiàn)和成 績最強關聯(lián)的是學生打水的數(shù)據(jù),因為我們學校對打水有要求,每500毫升開水要花一分錢,你要刷卡,這是避免大家浪費水。就是通過這一分錢打500毫升開 水的數(shù)據(jù)分析,發(fā)現(xiàn)打水比較少的人成績有好有壞,這個不能說明問題。但是打水多的人成績基本上都比較好,一旦你原來打水很多,現(xiàn)在你突然不怎么打水了,或 者打水少了,就出問題了。很多學生真是這個問題,這個是非常強的信號。
還 有一個例子是好學生差學生進出寢室數(shù)據(jù)。好學生七點多的時候就出寢室了,中午不在,晚上10點半回來,非常有規(guī)律。這個是一個典型的差學生,他白天不出寢 室,下午也不出寢室,但是星期五2點半到星期六12點都不在寢室,這是一個真實的案例。好學生去圖書館,四個多月平均去100多次,差學生去七八次,這些 信號都是非常有趣的,可以幫助我們定量化的進行學業(yè)的預測。
最 后就是管理貧困生。有些學生由于面子的問題,不愿意去街道辦事處的辦證明,因而申請不到貧困助學貸款。我們發(fā)現(xiàn)在電子科大新老校區(qū)中餐和晚餐平均一個人是 7.13塊。如果一個學生連續(xù)一個月56頓都在吃食堂,并且每頓不超過4.6塊,那么我們讓輔導員去他的寢室看一看到底是不是真的很貧困,如果是,征得他 個人同意,我們不像外公布名字,每個月給他打200塊助學貸款。期末的時候還會統(tǒng)計,有這些助學的人到底是不是生活條件有點提高。我們現(xiàn)在發(fā)現(xiàn)提高的有難 度,并不是很明顯,說明這些人還是很節(jié)省。這個我們在想有沒有什么辦法,讓他吃的好一點,這個我們也在思考。第二個就是我們發(fā)現(xiàn)有些貧困生他的消費很高, 他們還在超市里買很多零食,每頓飯也吃很多,我們都知道,因為我們有一卡通數(shù)據(jù)。未來我們下學期要進行一些改變,我們要設定一些預值,把一些貧困生資格取 消掉。這也是我們要做的,通過這些辦法我們想象的是你們要裝貧困生,那你也得裝的辛苦一點。
今天跟大家有機會聊一聊,是給大家講一講大數(shù)據(jù)在科學教育、在高校這個平臺可以做些什么事情,最后謝謝大家。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03