
編者語(yǔ):大數(shù)據(jù)不是數(shù)據(jù)量的簡(jiǎn)單刻畫(huà),也不是特 定算法、技術(shù)或商業(yè)模式上的發(fā)展,而是從數(shù)據(jù)量、數(shù)據(jù)形態(tài)和數(shù)據(jù)分析處理方式,到理念和形態(tài)上重大變革的總和——大數(shù)據(jù)是基于多源異構(gòu)、跨域關(guān)聯(lián)的海量數(shù) 據(jù)分析所產(chǎn)生的決策流程、商業(yè)模式、科學(xué)范式、生活方式和觀念形態(tài)上的顛覆性變化的總和。
大數(shù)據(jù)終于落地了,打開(kāi)水與學(xué)習(xí)成績(jī)緊密相關(guān)
2014年10月15日,以“阿里與復(fù)雜?前沿與應(yīng)用”為主題的第一屆阿里巴巴復(fù)雜科學(xué)前沿論壇在杭州阿里巴巴西溪園區(qū)隆重開(kāi)幕。以下是電子科技大學(xué)教授周濤的發(fā)言。
大數(shù)據(jù)的三股驅(qū)動(dòng)力
大家上午好,在座的大多數(shù)都是老朋友,我今天要給大家介紹的應(yīng)該是你們所有報(bào)告里最簡(jiǎn)單的一個(gè)。原來(lái)我想是一個(gè)比較科普性的場(chǎng)合,給大家介紹一個(gè)非常簡(jiǎn)單的案例讓大家看一下大數(shù)據(jù)是怎樣影響我們的科學(xué)和教育的。
首先簡(jiǎn)單說(shuō)什么是大數(shù)據(jù)? 我在思考大數(shù)據(jù)的時(shí)候看中的是他內(nèi)在的三股驅(qū)動(dòng)的力量。
一股力量是數(shù)據(jù)總量在飛速的變化。比如淘寶現(xiàn)在有10億商品,這就帶來(lái)大數(shù)據(jù)時(shí)代的第一個(gè)矛盾:飛速爆炸增長(zhǎng)的數(shù)據(jù)量和普通人甄別數(shù)據(jù)的能力之間的矛盾,也叫做信息過(guò)載,因此才有今天的淘寶上的“猜你喜歡”等等的應(yīng)用。
第二股是數(shù)據(jù)形態(tài)發(fā)生了巨大的變化, 以前處理的絕大多數(shù)是表格類(lèi)的數(shù)據(jù),用一些非常簡(jiǎn)單的辦法就可以得到變量之間的關(guān)聯(lián),以及作一些簡(jiǎn)單的預(yù)測(cè),但是現(xiàn)在80%的數(shù)據(jù)從去年開(kāi)始都不再是表格 類(lèi)的數(shù)據(jù),包括語(yǔ)音、視頻、圖像、空間移動(dòng)的軌跡、網(wǎng)絡(luò)等等,怎么從這些非結(jié)構(gòu)化的數(shù)據(jù)中挖掘出有價(jià)值的信息,是我們第二個(gè)大挑戰(zhàn)。
第三是大變化, 尤其是阿里的同事能夠感覺(jué)到,你們通過(guò)大量投資去購(gòu)買(mǎi)了很多戰(zhàn)略性的企業(yè),包括從政府的各個(gè)部門(mén)獲取數(shù)據(jù),這就使得第一次有機(jī)會(huì)實(shí)現(xiàn)某種意義上的數(shù)據(jù)關(guān)聯(lián) 形態(tài)的變化,以前大多數(shù)據(jù)是孤立的,但是現(xiàn)在我們基于一個(gè)人,有他在高德地圖上行車(chē)的軌跡數(shù)據(jù),知道他的工作地點(diǎn)、家庭住址等等,可以有他淘寶天貓的購(gòu)物 數(shù)據(jù),還有他來(lái)往上的一些交流數(shù)據(jù),還能了解這個(gè)人在微博中說(shuō)了什么話(huà),甚至在某些城市還有他的醫(yī)保、社保、犯罪記錄的數(shù)據(jù)。那么這樣的話(huà),我們可以獲得 一個(gè)一加一大于二的價(jià)值,這些才是我們大數(shù)據(jù)背后的三股力量,他能推動(dòng)我們未來(lái)的服務(wù),從一個(gè)全體化的服務(wù)變成群體化再到個(gè)體化。
大數(shù)據(jù)時(shí)代科研與教育的變化
今天主要介紹的不是商業(yè)模式的變化而是大數(shù)據(jù)的科學(xué)和教育。他有什么新的理念和方法?傳統(tǒng)的科學(xué)是有數(shù)據(jù)和理論我們才能進(jìn)行解釋?zhuān)鲱A(yù)測(cè)、控制。大 家最熟悉的最成功的就是QED,可以把一個(gè)小的粒子的概率壽命精確到小數(shù)點(diǎn)后七八位都還是正確的,這是因?yàn)樗澈笥幸惶淄暾牧孔与妱?dòng)力學(xué)的理論。那么有 了這些預(yù)測(cè)的結(jié)果我們能夠?qū)崿F(xiàn)控制。這些控制可能是在比較低的溫度下,對(duì)單原子的控制。那么它的前提是建立在一套有效的科學(xué)理論上。但是剛才王飛躍老師以 及大家講過(guò),也包括大家從谷歌這么多年發(fā)展中感受到的,我們有一句話(huà)叫做“科學(xué)應(yīng)該向谷歌學(xué)什么”?現(xiàn)在大數(shù)據(jù)科學(xué)產(chǎn)生的某種變化,我有了數(shù)據(jù)和理論才能 進(jìn)行完整的解釋?zhuān)俏覜](méi)有理論只有數(shù)據(jù)我也可以做預(yù)測(cè)和控制。舉個(gè)例子谷歌利用海量的數(shù)據(jù),利用5000萬(wàn)搜索關(guān)鍵詞的數(shù)據(jù),并和疾病控制中心里面每天 報(bào)告的傳染病、流感的患病人數(shù)進(jìn)行對(duì)比,找到100個(gè)最有關(guān)聯(lián)的數(shù)據(jù),通過(guò)非常簡(jiǎn)單的多變量的線(xiàn)性回歸找到45個(gè),用45個(gè)最關(guān)聯(lián)的關(guān)鍵詞進(jìn)行預(yù)測(cè)。它并 不知道為什么搜索某個(gè)特定的關(guān)鍵詞可能會(huì)以什么樣的形式影響患病的人數(shù),但是他利用這種大數(shù)據(jù)分析的辦法,可以直接對(duì)下一周有多少人患流感進(jìn)行比較精確的 預(yù)算,這些都是以前我們所沒(méi)有經(jīng)歷過(guò)的。
第 二個(gè)大變化就是剛才有老師也談到了,以前在實(shí)驗(yàn)室小規(guī)模控制實(shí)驗(yàn)下的半定量的科學(xué)包括心理學(xué)、管理學(xué)、社會(huì)學(xué)、社會(huì)心理學(xué)等等將走向基于大規(guī)模非控制數(shù)據(jù) 分析的定量科學(xué)。王飛躍老師舉了一些非常好的例子,就是原來(lái)處理社會(huì)科學(xué)的辦法,往往是非常小規(guī)模的實(shí)驗(yàn)。但是現(xiàn)在通過(guò)一些人工科學(xué),通過(guò)這種大數(shù)據(jù)的采 集,真正把國(guó)家制度納入到科學(xué)的層面,以前這僅僅是一個(gè)基于經(jīng)驗(yàn)的可以說(shuō)是半定量的科學(xué)。以前做一次實(shí)驗(yàn),比如說(shuō)探討宗教問(wèn)題,我看到最大規(guī)模的實(shí)驗(yàn),無(wú) 非就幾百上千人通過(guò)問(wèn)卷的形式。但是現(xiàn)在我們已經(jīng)找到有8000多人是有宗教標(biāo)簽的,在微博上也有70多萬(wàn)人。那么其中分了不同的教派,通過(guò)分析我們可以 了解宗教的不同教派之間是不是有非常緊密的聯(lián)系,歷史上有一些彼此不大對(duì)頭的教派是不是連接比較稀松,他們之間說(shuō)話(huà)、用語(yǔ)到底是用褒義詞多還是貶義詞多, 用有暴力傾向的詞多,還是比較友善的詞多,我們能夠宏觀的得到哪個(gè)宗教有最強(qiáng)的反社會(huì)傾向等等。這很明顯,的確存在某些宗教比其他宗教更強(qiáng)的反社會(huì)性、封 閉型。那么我們還可以做很多的事情,比如說(shuō)我們可以大規(guī)模研究同性戀的問(wèn)題,大規(guī)模的研究農(nóng)村人搬遷到城市以后能不能適應(yīng)城市,能不能融入城市。我們給志 愿者發(fā)手機(jī),觀察這些從農(nóng)村搬到城市的人看他能不能融入城市等等,這些研究方式在以前是難以想象的。
科研合作的例子
我 這里給大家舉幾個(gè)例子。第一個(gè)例子我們知道以前在艾爾多斯的時(shí)代,他終生未娶,到處漂泊的,見(jiàn)到一個(gè)數(shù)學(xué)家有一個(gè)好想法,他被認(rèn)為是一個(gè)特立獨(dú)行的人,但 是他推動(dòng)了整個(gè)數(shù)學(xué)研究從孤立的研究變成大規(guī)模的合作,因?yàn)樗约阂簧l(fā)表了1500多篇論文,其中有900多篇都是和人合作的,所以我們才有了艾爾多斯 數(shù)。最近有兩篇論文想去看到底現(xiàn)在我們是不是有更多的論文是合作的,這些合作的問(wèn)題是不是帶來(lái)更大的影響力,或者有更高的科學(xué)成就。他們通過(guò)兩篇英文的文 章,在2007年和2008年,一篇分析了將近2000萬(wàn)篇學(xué)術(shù)論文和200多萬(wàn)份美國(guó)專(zhuān)利。他們發(fā)現(xiàn)除了人文藝術(shù)主要還是單打獨(dú)斗以外,不管是專(zhuān)利、科 學(xué)、還是工程統(tǒng)統(tǒng)都有一個(gè)表現(xiàn),就是合作的論文變得更多,而且合作論文的人數(shù),合作者的平均數(shù)目也變得更多,并且合作論文總的影響力,平均而言要比單打獨(dú) 斗的論文高,專(zhuān)利也是這樣。這是第一次證明了這一點(diǎn),對(duì)當(dāng)時(shí)的影響是非常大的。
在 08年的時(shí)候通過(guò)研究美國(guó)600多個(gè)大學(xué)400多萬(wàn)篇論文發(fā)現(xiàn),大學(xué)與大學(xué)之間通過(guò)合作也會(huì)起到很大的作用,比如說(shuō)跨學(xué)校合作的文章影響力更大,尤其是強(qiáng) 的大學(xué)之間聯(lián)手更好,強(qiáng)的和弱的聯(lián)手,弱的大學(xué)可以提高,強(qiáng)的大學(xué)不會(huì)受損傷,但是弱學(xué)校之間聯(lián)合比單打獨(dú)斗效果更差。兩個(gè)企業(yè)肯定也是這樣的,大家都是 在生死線(xiàn)上掙扎,要不要抱團(tuán)還是一個(gè)問(wèn)題。
有 了這些基礎(chǔ),我們?cè)陔娮涌萍即髮W(xué)成立了一個(gè)大學(xué)研究中心,這是一個(gè)很大的機(jī)構(gòu),有60多個(gè)老師,包括有5個(gè)千人計(jì)劃的獲得者,還有很多拿國(guó)家獎(jiǎng)的。其中有 一個(gè)很小的團(tuán)隊(duì)是專(zhuān)門(mén)研究科技情報(bào)的。我們就發(fā)現(xiàn)頂尖的大學(xué)它的跨學(xué)校甚至跨國(guó)家合作的文章所占的比例遠(yuǎn)比二流三流的學(xué)校更大。由于有了這樣的研究,今年 在給老師評(píng)職稱(chēng)和博士生畢業(yè)的時(shí)候,我們就把這些跨學(xué)校的非利益合作的論文加了一個(gè)權(quán)重因子算到老師的工作量或是算到學(xué)生的畢業(yè)要求中,這就整體的改變了 電子科大對(duì)學(xué)生培養(yǎng)和對(duì)教師職稱(chēng)評(píng)定的思路。這個(gè)例子說(shuō)明,要說(shuō)服學(xué)校做一個(gè)新政策就需要用數(shù)據(jù)說(shuō)話(huà),比如我要去說(shuō)服我的校長(zhǎng)改變一下我們教師評(píng)聘原則, 當(dāng)然在我們中心我新聘的時(shí)候可以用自己的東西,因?yàn)槭且粋€(gè)特區(qū),但是我要改變學(xué)校,自己沒(méi)有辦法,但是當(dāng)我把這些數(shù)據(jù)提供出來(lái)的時(shí)候,就很順利通過(guò)了。
社交關(guān)系與大數(shù)據(jù)
再 講一個(gè)例子,也是一篇文章,以前我們?cè)谏鐣?huì)學(xué)中都有很重要的東西,大家很多是做復(fù)雜網(wǎng)絡(luò)的,為什么社會(huì)網(wǎng)絡(luò)是在社會(huì)學(xué)中逐漸變成一個(gè)重要的學(xué)科,很大層面 上是基于一個(gè)假設(shè),說(shuō)的是認(rèn)識(shí)哪些人和這些人交流的緊密不緊密、關(guān)系深不深以及認(rèn)識(shí)的朋友圈子多樣性強(qiáng)不強(qiáng),這些東西放在一起是我的社會(huì)資源,比如說(shuō)我經(jīng) 常和習(xí)近平老師、李克強(qiáng)老師交流,那我的社會(huì)資源肯定就很強(qiáng),你平時(shí)都是和犯罪分子打交道比較多,你又不是警察,你可能也是高危犯罪分子,這也是我們做了 一些研究的。從這個(gè)意義上講,我們的社會(huì)他的假設(shè)就是我可以把我的社會(huì)資本轉(zhuǎn)變經(jīng)濟(jì)資本,就是中國(guó)人說(shuō)的“人脈廣好辦事”。在這樣的文章中最早是一個(gè)清晰 的概念,他把當(dāng)時(shí)整個(gè)的大不列顛做了一次人口普查,覆蓋了99%的人口,在這個(gè)6500萬(wàn)手機(jī)用戶(hù)上,主要來(lái)自于3萬(wàn)多個(gè)行政區(qū),他把每個(gè)行政區(qū)看成一個(gè) 節(jié)點(diǎn),統(tǒng)計(jì)這個(gè)行政區(qū)和其他所有行政區(qū)通話(huà)的強(qiáng)度,最后算出了他的通話(huà)多樣性看作這個(gè)行政區(qū)基于手機(jī)通信所得到的熵,發(fā)現(xiàn)這個(gè)行政區(qū)的綜合表現(xiàn),包括教 育、GDP、犯罪、教育。大家看到這個(gè)圖,這個(gè)點(diǎn)是平均值,關(guān)聯(lián)量達(dá)到0.38,非常強(qiáng)的關(guān)聯(lián)。
昨 天我們聽(tīng)羅馬大學(xué)的老師給我們講怎么樣通過(guò)一個(gè)算法我們來(lái)看國(guó)家發(fā)展的情況,在一個(gè)二維平面上比較他的GDP和fitness。其實(shí)我們最近做了非常簡(jiǎn)單 的工作,我們就是統(tǒng)計(jì)一個(gè)城市,一個(gè)是總的GDP,還有一個(gè)是微博的活躍數(shù)。我們總是覺(jué)得人口越多經(jīng)濟(jì)水平越高的總是會(huì)上榜,但是我們發(fā)現(xiàn)微博的活躍程度 和他的GDP是很強(qiáng)的關(guān)聯(lián),有些地方人群的微博比GDP還要活躍。我們找到像三亞這樣的旅游服務(wù)型的城市,有五個(gè)城市非常獨(dú)特,他微博很不活躍,但是 GDP非常高??梢韵胂螅覀兓旧夏茴A(yù)測(cè),5到10年內(nèi)它會(huì)出現(xiàn)一個(gè)比較大的問(wèn)題,因?yàn)樗男袠I(yè)板塊基本上是單個(gè)行業(yè),而且又是資源依賴(lài)性,重工業(yè)依賴(lài) 性。
我再 講兩個(gè)例子。這個(gè)例子很好玩,也是通過(guò)手機(jī)數(shù)據(jù)。我們都知道低等生物有一個(gè)很大的沖動(dòng),他總是希望把自己的基因盡最大可能在大自然里復(fù)制出去,但是高等生 物可能不是這樣的,因?yàn)槟愫茈y想象我們一次深刻的愛(ài)情,他的目的只是為了繁衍,然后讓你基因不停的被復(fù)制。這個(gè)大家可能接受不了,所以說(shuō)中間有一個(gè)問(wèn)題, 在演化生物學(xué)中,人到底是怎么樣把自己的資源放到親代和子代還有自己的配偶中來(lái)的呢,他們通過(guò)將近5億次的短信和20億次的通話(huà),他問(wèn)的問(wèn)題是“一個(gè)人他 聯(lián)系最多最好的人到底是誰(shuí),什么性別,什么年齡”,他發(fā)現(xiàn)了如果是一個(gè)女性就得負(fù)一分,男性得正一分,紅色的是女性的曲線(xiàn),藍(lán)色的是男性的曲線(xiàn),我們發(fā)現(xiàn) 男性在30歲這個(gè)階段主要是跟女性,女性是跟男性是最好的朋友,這可能是他的配偶,伴侶。男性總體來(lái)說(shuō)反映慢一些,女孩子18歲的時(shí)候已經(jīng)和男孩子很親密 互動(dòng)的時(shí)候,男孩還是和男孩玩。這個(gè)問(wèn)題固然好,但是他們又問(wèn)了“你的第二好友是誰(shuí)”,我們看男性在20歲的時(shí)候是男性,然而女性的第二好友往往是男性, 但是男性的第二好友已經(jīng)看不出性別的差異,他們想進(jìn)一步通過(guò)數(shù)據(jù)來(lái)看為什么會(huì)這樣,于是把數(shù)據(jù)展開(kāi),上面是兩個(gè)25歲的人,右邊是25歲的男性,左邊是 25歲的女性,紅色的代表女性,藍(lán)色的代表男性,他的最好的朋友是女性和是男性的分布情況,兩條曲線(xiàn)綜合是1,他們發(fā)現(xiàn)25歲的男性主要還是和25歲的女 性其次是男性,25歲的女性主要和同齡的男性打交道,其次是同性女性。
回 頭看看50歲就不一樣的,左邊是50歲的男性我們發(fā)現(xiàn)一個(gè)現(xiàn)象,50歲的很多都是50歲左右的女性是他最好的朋友,其次才是他的子女,這個(gè)對(duì)于女孩子來(lái)說(shuō) 是好消息。女生就不一樣,50歲的女性主要是跟子女,50多歲一個(gè)阿姨,主要關(guān)注的是他的子女,他的第二個(gè)好友很有可能是他的丈夫,所以第二好友往往是男 性。那么這些都是我們通過(guò)數(shù)據(jù)得到的,并不定能夠帶給我們非常大的價(jià)值,但是非常的有趣。
最 后講一個(gè)例子,這實(shí)際上是去年很火的,這篇文章是微軟研究院跟劍橋一起做的。他僅僅是表達(dá)你對(duì)一篇文章、歌、電影是不是喜歡,利用這個(gè)信息可以做很多預(yù) 測(cè),有些是讓人很吃驚的,不是說(shuō)精度很高,大概80%左右,比如說(shuō)他可以預(yù)測(cè)這個(gè)人是單身還是戀愛(ài),還可以預(yù)測(cè)你父母是不是離異,包括抽煙喝酒等等,還有 預(yù)測(cè)你是不是同性戀,總體來(lái)說(shuō)男同性戀更好預(yù)測(cè),不知道為什么,這些東西非??膳?。我在跟微軟在做一個(gè)項(xiàng)目,通過(guò)看北京同性戀一些酒吧(一個(gè)真正的同性戀 可以知道很多這樣的酒吧),哪些人常去這樣的地方,我把大量的數(shù)據(jù)弄出來(lái),可以做很精確的預(yù)測(cè)。另外大家玩很多手機(jī)游戲,很多游戲比如天天酷跑,本來(lái)不用 知道我到底在哪里玩,具體怎么玩,僅僅玩這個(gè)游戲行為本身,就可以泄露大量的信息,從小了說(shuō)可以看你是不是一個(gè)同性戀,從大了說(shuō)可以看你是不是在某個(gè)軍事 單位、國(guó)防單位,我們通過(guò)手機(jī)、通過(guò)暴露的數(shù)據(jù)都可以得到。
大數(shù)據(jù)在當(dāng)代教育中的應(yīng)用
大數(shù)據(jù)在教育方面的革命是要真正做到個(gè)性化的教育,這是一個(gè)大的趨勢(shì)。以 前的教育很多都是靠經(jīng)驗(yàn),不定量,比如說(shuō)大學(xué)現(xiàn)在學(xué)校里面管的很?chē)?yán),我們把蒼井空老師很多作品封殺了,不允許大學(xué)生看,但是實(shí)際上看她的片子里都有大學(xué)的 男生,男生這么多,那他們是不是應(yīng)該學(xué)習(xí)一下蒼老師的一些著作?這些我們都沒(méi)有定量化研究就把它封了。我們現(xiàn)在可以通過(guò)無(wú)線(xiàn)看到你上了哪些網(wǎng)站,我們?cè)侔?匿名化的東西和匿名化的場(chǎng)景對(duì)應(yīng)起來(lái),我們看一下以前經(jīng)常上這個(gè)網(wǎng)站的人,這個(gè)寢室是不是成績(jī)很差,當(dāng)然這里只能精確到寢室?,F(xiàn)在圖書(shū)館里面擺了我們老師 自以為給同學(xué)看的最好的書(shū),其實(shí)大部分都是老師自己寫(xiě)的教材,像一些古龍的書(shū)一般藏在很隱蔽的角落里,一般都找不到。我們有七年學(xué)生借書(shū)的數(shù)據(jù),這個(gè)學(xué)生 未來(lái)的成績(jī)、出處,好的比如說(shuō)出國(guó)了、好公司了,壞的有些確實(shí)沒(méi)有畢業(yè),退學(xué)了等等。我們用這個(gè)想辦法把學(xué)生分成不同的等級(jí),然后我們看哪些書(shū)在專(zhuān)業(yè)上或 者在其他方面對(duì)學(xué)生有幫助,好學(xué)生看什么書(shū),壞學(xué)生看什么書(shū)。所以我們希望所有的東西都變成一個(gè)定量化。比如說(shuō)有些選修課,由于教室的原因,只能選40個(gè) 人,那么有些教室可以選100個(gè)。我們以前只是去看這樣的數(shù)據(jù)就是哪些人成功選了什么課,但是現(xiàn)在不一樣,我們把每個(gè)點(diǎn)擊的數(shù)據(jù)記錄下來(lái),就知道很多學(xué)生 想選的課沒(méi)有選上。我們發(fā)現(xiàn)有些課只有40個(gè)人能選,但是有700個(gè)學(xué)生選了,那這些課未來(lái)是不是可以大量的開(kāi)。這些都是我們定量化的問(wèn)題。
第二個(gè)是個(gè)性化的問(wèn)題?,F(xiàn)在很多遠(yuǎn)程教育實(shí)際上就是工業(yè)化課堂教育的延伸,是非個(gè)性化的。而 我們想把教育變成個(gè)性化,比如說(shuō)一個(gè)中學(xué)生,我們現(xiàn)在有80多萬(wàn)的題庫(kù),一個(gè)學(xué)生可以自己選,我只出選擇題給你做,后面有80多萬(wàn)的題庫(kù),那么你做了以后 每個(gè)知識(shí)點(diǎn)的掌握情況怎么樣,我盡可能多出你掌握的不好的題庫(kù)等等,那么你隨時(shí)就可以看到受教育的情況以及掌握知識(shí)點(diǎn)的情況。
國(guó) 外有很多例子我就不詳細(xì)講了,舉幾個(gè)我們做的例子。第一個(gè)就是我這里給大家看到的,明年年初會(huì)開(kāi)新聞發(fā)布會(huì),讓媒體里選四個(gè)班,我們來(lái)預(yù)測(cè)這四個(gè)班的成績(jī) 排名。如果大家只是把前一個(gè)學(xué)期的成績(jī)直接挪到后一個(gè)學(xué)期,平均只能達(dá)到80%。怎么做,這里面有一個(gè)很關(guān)鍵點(diǎn),就是一個(gè)人成績(jī)變壞,不是一天兩天變的, 比如說(shuō)我原來(lái)很愛(ài)學(xué)習(xí),現(xiàn)在變成一個(gè)游戲狂,即便如此半年一年兩次考試,我還能提一提,因?yàn)樵瓉?lái)成績(jī)好,期末可以熬個(gè)夜。所以說(shuō)這個(gè)成績(jī)變壞人的生活模式 先變壞,我們可以提前讓輔導(dǎo)員知道他出了什么問(wèn)題,然后找他談話(huà),那么幫助他。怎么做?我們通過(guò)手機(jī),還有一卡通的數(shù)據(jù)就能分析到很多。我們現(xiàn)在發(fā)現(xiàn)和成 績(jī)最強(qiáng)關(guān)聯(lián)的是學(xué)生打水的數(shù)據(jù),因?yàn)槲覀儗W(xué)校對(duì)打水有要求,每500毫升開(kāi)水要花一分錢(qián),你要刷卡,這是避免大家浪費(fèi)水。就是通過(guò)這一分錢(qián)打500毫升開(kāi) 水的數(shù)據(jù)分析,發(fā)現(xiàn)打水比較少的人成績(jī)有好有壞,這個(gè)不能說(shuō)明問(wèn)題。但是打水多的人成績(jī)基本上都比較好,一旦你原來(lái)打水很多,現(xiàn)在你突然不怎么打水了,或 者打水少了,就出問(wèn)題了。很多學(xué)生真是這個(gè)問(wèn)題,這個(gè)是非常強(qiáng)的信號(hào)。
還 有一個(gè)例子是好學(xué)生差學(xué)生進(jìn)出寢室數(shù)據(jù)。好學(xué)生七點(diǎn)多的時(shí)候就出寢室了,中午不在,晚上10點(diǎn)半回來(lái),非常有規(guī)律。這個(gè)是一個(gè)典型的差學(xué)生,他白天不出寢 室,下午也不出寢室,但是星期五2點(diǎn)半到星期六12點(diǎn)都不在寢室,這是一個(gè)真實(shí)的案例。好學(xué)生去圖書(shū)館,四個(gè)多月平均去100多次,差學(xué)生去七八次,這些 信號(hào)都是非常有趣的,可以幫助我們定量化的進(jìn)行學(xué)業(yè)的預(yù)測(cè)。
最 后就是管理貧困生。有些學(xué)生由于面子的問(wèn)題,不愿意去街道辦事處的辦證明,因而申請(qǐng)不到貧困助學(xué)貸款。我們發(fā)現(xiàn)在電子科大新老校區(qū)中餐和晚餐平均一個(gè)人是 7.13塊。如果一個(gè)學(xué)生連續(xù)一個(gè)月56頓都在吃食堂,并且每頓不超過(guò)4.6塊,那么我們讓輔導(dǎo)員去他的寢室看一看到底是不是真的很貧困,如果是,征得他 個(gè)人同意,我們不像外公布名字,每個(gè)月給他打200塊助學(xué)貸款。期末的時(shí)候還會(huì)統(tǒng)計(jì),有這些助學(xué)的人到底是不是生活條件有點(diǎn)提高。我們現(xiàn)在發(fā)現(xiàn)提高的有難 度,并不是很明顯,說(shuō)明這些人還是很節(jié)省。這個(gè)我們?cè)谙胗袥](méi)有什么辦法,讓他吃的好一點(diǎn),這個(gè)我們也在思考。第二個(gè)就是我們發(fā)現(xiàn)有些貧困生他的消費(fèi)很高, 他們還在超市里買(mǎi)很多零食,每頓飯也吃很多,我們都知道,因?yàn)槲覀冇幸豢ㄍ〝?shù)據(jù)。未來(lái)我們下學(xué)期要進(jìn)行一些改變,我們要設(shè)定一些預(yù)值,把一些貧困生資格取 消掉。這也是我們要做的,通過(guò)這些辦法我們想象的是你們要裝貧困生,那你也得裝的辛苦一點(diǎn)。
今天跟大家有機(jī)會(huì)聊一聊,是給大家講一講大數(shù)據(jù)在科學(xué)教育、在高校這個(gè)平臺(tái)可以做些什么事情,最后謝謝大家。
大數(shù)據(jù)的三股驅(qū)動(dòng)力
大家上午好,在座的大多數(shù)都是老朋友,我今天要給大家介紹的應(yīng)該是你們所有報(bào)告里最簡(jiǎn)單的一個(gè)。原來(lái)我想是一個(gè)比較科普性的場(chǎng)合,給大家介紹一個(gè)非常簡(jiǎn)單的案例讓大家看一下大數(shù)據(jù)是怎樣影響我們的科學(xué)和教育的。
首先簡(jiǎn)單說(shuō)什么是大數(shù)據(jù)? 我在思考大數(shù)據(jù)的時(shí)候看中的是他內(nèi)在的三股驅(qū)動(dòng)的力量。
一股力量是數(shù)據(jù)總量在飛速的變化。比如淘寶現(xiàn)在有10億商品,這就帶來(lái)大數(shù)據(jù)時(shí)代的第一個(gè)矛盾:飛速爆炸增長(zhǎng)的數(shù)據(jù)量和普通人甄別數(shù)據(jù)的能力之間的矛盾,也叫做信息過(guò)載,因此才有今天的淘寶上的“猜你喜歡”等等的應(yīng)用。
第二股是數(shù)據(jù)形態(tài)發(fā)生了巨大的變化, 以前處理的絕大多數(shù)是表格類(lèi)的數(shù)據(jù),用一些非常簡(jiǎn)單的辦法就可以得到變量之間的關(guān)聯(lián),以及作一些簡(jiǎn)單的預(yù)測(cè),但是現(xiàn)在80%的數(shù)據(jù)從去年開(kāi)始都不再是表格 類(lèi)的數(shù)據(jù),包括語(yǔ)音、視頻、圖像、空間移動(dòng)的軌跡、網(wǎng)絡(luò)等等,怎么從這些非結(jié)構(gòu)化的數(shù)據(jù)中挖掘出有價(jià)值的信息,是我們第二個(gè)大挑戰(zhàn)。
第三是大變化, 尤其是阿里的同事能夠感覺(jué)到,你們通過(guò)大量投資去購(gòu)買(mǎi)了很多戰(zhàn)略性的企業(yè),包括從政府的各個(gè)部門(mén)獲取數(shù)據(jù),這就使得第一次有機(jī)會(huì)實(shí)現(xiàn)某種意義上的數(shù)據(jù)關(guān)聯(lián) 形態(tài)的變化,以前大多數(shù)據(jù)是孤立的,但是現(xiàn)在我們基于一個(gè)人,有他在高德地圖上行車(chē)的軌跡數(shù)據(jù),知道他的工作地點(diǎn)、家庭住址等等,可以有他淘寶天貓的購(gòu)物 數(shù)據(jù),還有他來(lái)往上的一些交流數(shù)據(jù),還能了解這個(gè)人在微博中說(shuō)了什么話(huà),甚至在某些城市還有他的醫(yī)保、社保、犯罪記錄的數(shù)據(jù)。那么這樣的話(huà),我們可以獲得 一個(gè)一加一大于二的價(jià)值,這些才是我們大數(shù)據(jù)背后的三股力量,他能推動(dòng)我們未來(lái)的服務(wù),從一個(gè)全體化的服務(wù)變成群體化再到個(gè)體化。
大數(shù)據(jù)時(shí)代科研與教育的變化
今天主要介紹的不是商業(yè)模式的變化而是大數(shù)據(jù)的科學(xué)和教育。他有什么新的理念和方法?傳統(tǒng)的科學(xué)是有數(shù)據(jù)和理論我們才能進(jìn)行解釋?zhuān)鲱A(yù)測(cè)、控制。大 家最熟悉的最成功的就是QED,可以把一個(gè)小的粒子的概率壽命精確到小數(shù)點(diǎn)后七八位都還是正確的,這是因?yàn)樗澈笥幸惶淄暾牧孔与妱?dòng)力學(xué)的理論。那么有 了這些預(yù)測(cè)的結(jié)果我們能夠?qū)崿F(xiàn)控制。這些控制可能是在比較低的溫度下,對(duì)單原子的控制。那么它的前提是建立在一套有效的科學(xué)理論上。但是剛才王飛躍老師以 及大家講過(guò),也包括大家從谷歌這么多年發(fā)展中感受到的,我們有一句話(huà)叫做“科學(xué)應(yīng)該向谷歌學(xué)什么”?現(xiàn)在大數(shù)據(jù)科學(xué)產(chǎn)生的某種變化,我有了數(shù)據(jù)和理論才能 進(jìn)行完整的解釋?zhuān)俏覜](méi)有理論只有數(shù)據(jù)我也可以做預(yù)測(cè)和控制。舉個(gè)例子谷歌利用海量的數(shù)據(jù),利用5000萬(wàn)搜索關(guān)鍵詞的數(shù)據(jù),并和疾病控制中心里面每天 報(bào)告的傳染病、流感的患病人數(shù)進(jìn)行對(duì)比,找到100個(gè)最有關(guān)聯(lián)的數(shù)據(jù),通過(guò)非常簡(jiǎn)單的多變量的線(xiàn)性回歸找到45個(gè),用45個(gè)最關(guān)聯(lián)的關(guān)鍵詞進(jìn)行預(yù)測(cè)。它并 不知道為什么搜索某個(gè)特定的關(guān)鍵詞可能會(huì)以什么樣的形式影響患病的人數(shù),但是他利用這種大數(shù)據(jù)分析的辦法,可以直接對(duì)下一周有多少人患流感進(jìn)行比較精確的 預(yù)算,這些都是以前我們所沒(méi)有經(jīng)歷過(guò)的。
第 二個(gè)大變化就是剛才有老師也談到了,以前在實(shí)驗(yàn)室小規(guī)模控制實(shí)驗(yàn)下的半定量的科學(xué)包括心理學(xué)、管理學(xué)、社會(huì)學(xué)、社會(huì)心理學(xué)等等將走向基于大規(guī)模非控制數(shù)據(jù) 分析的定量科學(xué)。王飛躍老師舉了一些非常好的例子,就是原來(lái)處理社會(huì)科學(xué)的辦法,往往是非常小規(guī)模的實(shí)驗(yàn)。但是現(xiàn)在通過(guò)一些人工科學(xué),通過(guò)這種大數(shù)據(jù)的采 集,真正把國(guó)家制度納入到科學(xué)的層面,以前這僅僅是一個(gè)基于經(jīng)驗(yàn)的可以說(shuō)是半定量的科學(xué)。以前做一次實(shí)驗(yàn),比如說(shuō)探討宗教問(wèn)題,我看到最大規(guī)模的實(shí)驗(yàn),無(wú) 非就幾百上千人通過(guò)問(wèn)卷的形式。但是現(xiàn)在我們已經(jīng)找到有8000多人是有宗教標(biāo)簽的,在微博上也有70多萬(wàn)人。那么其中分了不同的教派,通過(guò)分析我們可以 了解宗教的不同教派之間是不是有非常緊密的聯(lián)系,歷史上有一些彼此不大對(duì)頭的教派是不是連接比較稀松,他們之間說(shuō)話(huà)、用語(yǔ)到底是用褒義詞多還是貶義詞多, 用有暴力傾向的詞多,還是比較友善的詞多,我們能夠宏觀的得到哪個(gè)宗教有最強(qiáng)的反社會(huì)傾向等等。這很明顯,的確存在某些宗教比其他宗教更強(qiáng)的反社會(huì)性、封 閉型。那么我們還可以做很多的事情,比如說(shuō)我們可以大規(guī)模研究同性戀的問(wèn)題,大規(guī)模的研究農(nóng)村人搬遷到城市以后能不能適應(yīng)城市,能不能融入城市。我們給志 愿者發(fā)手機(jī),觀察這些從農(nóng)村搬到城市的人看他能不能融入城市等等,這些研究方式在以前是難以想象的。
科研合作的例子
我 這里給大家舉幾個(gè)例子。第一個(gè)例子我們知道以前在艾爾多斯的時(shí)代,他終生未娶,到處漂泊的,見(jiàn)到一個(gè)數(shù)學(xué)家有一個(gè)好想法,他被認(rèn)為是一個(gè)特立獨(dú)行的人,但 是他推動(dòng)了整個(gè)數(shù)學(xué)研究從孤立的研究變成大規(guī)模的合作,因?yàn)樗约阂簧l(fā)表了1500多篇論文,其中有900多篇都是和人合作的,所以我們才有了艾爾多斯 數(shù)。最近有兩篇論文想去看到底現(xiàn)在我們是不是有更多的論文是合作的,這些合作的問(wèn)題是不是帶來(lái)更大的影響力,或者有更高的科學(xué)成就。他們通過(guò)兩篇英文的文 章,在2007年和2008年,一篇分析了將近2000萬(wàn)篇學(xué)術(shù)論文和200多萬(wàn)份美國(guó)專(zhuān)利。他們發(fā)現(xiàn)除了人文藝術(shù)主要還是單打獨(dú)斗以外,不管是專(zhuān)利、科 學(xué)、還是工程統(tǒng)統(tǒng)都有一個(gè)表現(xiàn),就是合作的論文變得更多,而且合作論文的人數(shù),合作者的平均數(shù)目也變得更多,并且合作論文總的影響力,平均而言要比單打獨(dú) 斗的論文高,專(zhuān)利也是這樣。這是第一次證明了這一點(diǎn),對(duì)當(dāng)時(shí)的影響是非常大的。
在 08年的時(shí)候通過(guò)研究美國(guó)600多個(gè)大學(xué)400多萬(wàn)篇論文發(fā)現(xiàn),大學(xué)與大學(xué)之間通過(guò)合作也會(huì)起到很大的作用,比如說(shuō)跨學(xué)校合作的文章影響力更大,尤其是強(qiáng) 的大學(xué)之間聯(lián)手更好,強(qiáng)的和弱的聯(lián)手,弱的大學(xué)可以提高,強(qiáng)的大學(xué)不會(huì)受損傷,但是弱學(xué)校之間聯(lián)合比單打獨(dú)斗效果更差。兩個(gè)企業(yè)肯定也是這樣的,大家都是 在生死線(xiàn)上掙扎,要不要抱團(tuán)還是一個(gè)問(wèn)題。
有 了這些基礎(chǔ),我們?cè)陔娮涌萍即髮W(xué)成立了一個(gè)大學(xué)研究中心,這是一個(gè)很大的機(jī)構(gòu),有60多個(gè)老師,包括有5個(gè)千人計(jì)劃的獲得者,還有很多拿國(guó)家獎(jiǎng)的。其中有 一個(gè)很小的團(tuán)隊(duì)是專(zhuān)門(mén)研究科技情報(bào)的。我們就發(fā)現(xiàn)頂尖的大學(xué)它的跨學(xué)校甚至跨國(guó)家合作的文章所占的比例遠(yuǎn)比二流三流的學(xué)校更大。由于有了這樣的研究,今年 在給老師評(píng)職稱(chēng)和博士生畢業(yè)的時(shí)候,我們就把這些跨學(xué)校的非利益合作的論文加了一個(gè)權(quán)重因子算到老師的工作量或是算到學(xué)生的畢業(yè)要求中,這就整體的改變了 電子科大對(duì)學(xué)生培養(yǎng)和對(duì)教師職稱(chēng)評(píng)定的思路。這個(gè)例子說(shuō)明,要說(shuō)服學(xué)校做一個(gè)新政策就需要用數(shù)據(jù)說(shuō)話(huà),比如我要去說(shuō)服我的校長(zhǎng)改變一下我們教師評(píng)聘原則, 當(dāng)然在我們中心我新聘的時(shí)候可以用自己的東西,因?yàn)槭且粋€(gè)特區(qū),但是我要改變學(xué)校,自己沒(méi)有辦法,但是當(dāng)我把這些數(shù)據(jù)提供出來(lái)的時(shí)候,就很順利通過(guò)了。
社交關(guān)系與大數(shù)據(jù)
再 講一個(gè)例子,也是一篇文章,以前我們?cè)谏鐣?huì)學(xué)中都有很重要的東西,大家很多是做復(fù)雜網(wǎng)絡(luò)的,為什么社會(huì)網(wǎng)絡(luò)是在社會(huì)學(xué)中逐漸變成一個(gè)重要的學(xué)科,很大層面 上是基于一個(gè)假設(shè),說(shuō)的是認(rèn)識(shí)哪些人和這些人交流的緊密不緊密、關(guān)系深不深以及認(rèn)識(shí)的朋友圈子多樣性強(qiáng)不強(qiáng),這些東西放在一起是我的社會(huì)資源,比如說(shuō)我經(jīng) 常和習(xí)近平老師、李克強(qiáng)老師交流,那我的社會(huì)資源肯定就很強(qiáng),你平時(shí)都是和犯罪分子打交道比較多,你又不是警察,你可能也是高危犯罪分子,這也是我們做了 一些研究的。從這個(gè)意義上講,我們的社會(huì)他的假設(shè)就是我可以把我的社會(huì)資本轉(zhuǎn)變經(jīng)濟(jì)資本,就是中國(guó)人說(shuō)的“人脈廣好辦事”。在這樣的文章中最早是一個(gè)清晰 的概念,他把當(dāng)時(shí)整個(gè)的大不列顛做了一次人口普查,覆蓋了99%的人口,在這個(gè)6500萬(wàn)手機(jī)用戶(hù)上,主要來(lái)自于3萬(wàn)多個(gè)行政區(qū),他把每個(gè)行政區(qū)看成一個(gè) 節(jié)點(diǎn),統(tǒng)計(jì)這個(gè)行政區(qū)和其他所有行政區(qū)通話(huà)的強(qiáng)度,最后算出了他的通話(huà)多樣性看作這個(gè)行政區(qū)基于手機(jī)通信所得到的熵,發(fā)現(xiàn)這個(gè)行政區(qū)的綜合表現(xiàn),包括教 育、GDP、犯罪、教育。大家看到這個(gè)圖,這個(gè)點(diǎn)是平均值,關(guān)聯(lián)量達(dá)到0.38,非常強(qiáng)的關(guān)聯(lián)。
昨 天我們聽(tīng)羅馬大學(xué)的老師給我們講怎么樣通過(guò)一個(gè)算法我們來(lái)看國(guó)家發(fā)展的情況,在一個(gè)二維平面上比較他的GDP和fitness。其實(shí)我們最近做了非常簡(jiǎn)單 的工作,我們就是統(tǒng)計(jì)一個(gè)城市,一個(gè)是總的GDP,還有一個(gè)是微博的活躍數(shù)。我們總是覺(jué)得人口越多經(jīng)濟(jì)水平越高的總是會(huì)上榜,但是我們發(fā)現(xiàn)微博的活躍程度 和他的GDP是很強(qiáng)的關(guān)聯(lián),有些地方人群的微博比GDP還要活躍。我們找到像三亞這樣的旅游服務(wù)型的城市,有五個(gè)城市非常獨(dú)特,他微博很不活躍,但是 GDP非常高??梢韵胂?,我們基本上能預(yù)測(cè),5到10年內(nèi)它會(huì)出現(xiàn)一個(gè)比較大的問(wèn)題,因?yàn)樗男袠I(yè)板塊基本上是單個(gè)行業(yè),而且又是資源依賴(lài)性,重工業(yè)依賴(lài) 性。
我再 講兩個(gè)例子。這個(gè)例子很好玩,也是通過(guò)手機(jī)數(shù)據(jù)。我們都知道低等生物有一個(gè)很大的沖動(dòng),他總是希望把自己的基因盡最大可能在大自然里復(fù)制出去,但是高等生 物可能不是這樣的,因?yàn)槟愫茈y想象我們一次深刻的愛(ài)情,他的目的只是為了繁衍,然后讓你基因不停的被復(fù)制。這個(gè)大家可能接受不了,所以說(shuō)中間有一個(gè)問(wèn)題, 在演化生物學(xué)中,人到底是怎么樣把自己的資源放到親代和子代還有自己的配偶中來(lái)的呢,他們通過(guò)將近5億次的短信和20億次的通話(huà),他問(wèn)的問(wèn)題是“一個(gè)人他 聯(lián)系最多最好的人到底是誰(shuí),什么性別,什么年齡”,他發(fā)現(xiàn)了如果是一個(gè)女性就得負(fù)一分,男性得正一分,紅色的是女性的曲線(xiàn),藍(lán)色的是男性的曲線(xiàn),我們發(fā)現(xiàn) 男性在30歲這個(gè)階段主要是跟女性,女性是跟男性是最好的朋友,這可能是他的配偶,伴侶。男性總體來(lái)說(shuō)反映慢一些,女孩子18歲的時(shí)候已經(jīng)和男孩子很親密 互動(dòng)的時(shí)候,男孩還是和男孩玩。這個(gè)問(wèn)題固然好,但是他們又問(wèn)了“你的第二好友是誰(shuí)”,我們看男性在20歲的時(shí)候是男性,然而女性的第二好友往往是男性, 但是男性的第二好友已經(jīng)看不出性別的差異,他們想進(jìn)一步通過(guò)數(shù)據(jù)來(lái)看為什么會(huì)這樣,于是把數(shù)據(jù)展開(kāi),上面是兩個(gè)25歲的人,右邊是25歲的男性,左邊是 25歲的女性,紅色的代表女性,藍(lán)色的代表男性,他的最好的朋友是女性和是男性的分布情況,兩條曲線(xiàn)綜合是1,他們發(fā)現(xiàn)25歲的男性主要還是和25歲的女 性其次是男性,25歲的女性主要和同齡的男性打交道,其次是同性女性。
回 頭看看50歲就不一樣的,左邊是50歲的男性我們發(fā)現(xiàn)一個(gè)現(xiàn)象,50歲的很多都是50歲左右的女性是他最好的朋友,其次才是他的子女,這個(gè)對(duì)于女孩子來(lái)說(shuō) 是好消息。女生就不一樣,50歲的女性主要是跟子女,50多歲一個(gè)阿姨,主要關(guān)注的是他的子女,他的第二個(gè)好友很有可能是他的丈夫,所以第二好友往往是男 性。那么這些都是我們通過(guò)數(shù)據(jù)得到的,并不定能夠帶給我們非常大的價(jià)值,但是非常的有趣。
最 后講一個(gè)例子,這實(shí)際上是去年很火的,這篇文章是微軟研究院跟劍橋一起做的。他僅僅是表達(dá)你對(duì)一篇文章、歌、電影是不是喜歡,利用這個(gè)信息可以做很多預(yù) 測(cè),有些是讓人很吃驚的,不是說(shuō)精度很高,大概80%左右,比如說(shuō)他可以預(yù)測(cè)這個(gè)人是單身還是戀愛(ài),還可以預(yù)測(cè)你父母是不是離異,包括抽煙喝酒等等,還有 預(yù)測(cè)你是不是同性戀,總體來(lái)說(shuō)男同性戀更好預(yù)測(cè),不知道為什么,這些東西非常可怕。我在跟微軟在做一個(gè)項(xiàng)目,通過(guò)看北京同性戀一些酒吧(一個(gè)真正的同性戀 可以知道很多這樣的酒吧),哪些人常去這樣的地方,我把大量的數(shù)據(jù)弄出來(lái),可以做很精確的預(yù)測(cè)。另外大家玩很多手機(jī)游戲,很多游戲比如天天酷跑,本來(lái)不用 知道我到底在哪里玩,具體怎么玩,僅僅玩這個(gè)游戲行為本身,就可以泄露大量的信息,從小了說(shuō)可以看你是不是一個(gè)同性戀,從大了說(shuō)可以看你是不是在某個(gè)軍事 單位、國(guó)防單位,我們通過(guò)手機(jī)、通過(guò)暴露的數(shù)據(jù)都可以得到。
大數(shù)據(jù)在當(dāng)代教育中的應(yīng)用
大數(shù)據(jù)在教育方面的革命是要真正做到個(gè)性化的教育,這是一個(gè)大的趨勢(shì)。以 前的教育很多都是靠經(jīng)驗(yàn),不定量,比如說(shuō)大學(xué)現(xiàn)在學(xué)校里面管的很?chē)?yán),我們把蒼井空老師很多作品封殺了,不允許大學(xué)生看,但是實(shí)際上看她的片子里都有大學(xué)的 男生,男生這么多,那他們是不是應(yīng)該學(xué)習(xí)一下蒼老師的一些著作?這些我們都沒(méi)有定量化研究就把它封了。我們現(xiàn)在可以通過(guò)無(wú)線(xiàn)看到你上了哪些網(wǎng)站,我們?cè)侔?匿名化的東西和匿名化的場(chǎng)景對(duì)應(yīng)起來(lái),我們看一下以前經(jīng)常上這個(gè)網(wǎng)站的人,這個(gè)寢室是不是成績(jī)很差,當(dāng)然這里只能精確到寢室?,F(xiàn)在圖書(shū)館里面擺了我們老師 自以為給同學(xué)看的最好的書(shū),其實(shí)大部分都是老師自己寫(xiě)的教材,像一些古龍的書(shū)一般藏在很隱蔽的角落里,一般都找不到。我們有七年學(xué)生借書(shū)的數(shù)據(jù),這個(gè)學(xué)生 未來(lái)的成績(jī)、出處,好的比如說(shuō)出國(guó)了、好公司了,壞的有些確實(shí)沒(méi)有畢業(yè),退學(xué)了等等。我們用這個(gè)想辦法把學(xué)生分成不同的等級(jí),然后我們看哪些書(shū)在專(zhuān)業(yè)上或 者在其他方面對(duì)學(xué)生有幫助,好學(xué)生看什么書(shū),壞學(xué)生看什么書(shū)。所以我們希望所有的東西都變成一個(gè)定量化。比如說(shuō)有些選修課,由于教室的原因,只能選40個(gè) 人,那么有些教室可以選100個(gè)。我們以前只是去看這樣的數(shù)據(jù)就是哪些人成功選了什么課,但是現(xiàn)在不一樣,我們把每個(gè)點(diǎn)擊的數(shù)據(jù)記錄下來(lái),就知道很多學(xué)生 想選的課沒(méi)有選上。我們發(fā)現(xiàn)有些課只有40個(gè)人能選,但是有700個(gè)學(xué)生選了,那這些課未來(lái)是不是可以大量的開(kāi)。這些都是我們定量化的問(wèn)題。
第二個(gè)是個(gè)性化的問(wèn)題?,F(xiàn)在很多遠(yuǎn)程教育實(shí)際上就是工業(yè)化課堂教育的延伸,是非個(gè)性化的。而 我們想把教育變成個(gè)性化,比如說(shuō)一個(gè)中學(xué)生,我們現(xiàn)在有80多萬(wàn)的題庫(kù),一個(gè)學(xué)生可以自己選,我只出選擇題給你做,后面有80多萬(wàn)的題庫(kù),那么你做了以后 每個(gè)知識(shí)點(diǎn)的掌握情況怎么樣,我盡可能多出你掌握的不好的題庫(kù)等等,那么你隨時(shí)就可以看到受教育的情況以及掌握知識(shí)點(diǎn)的情況。
國(guó) 外有很多例子我就不詳細(xì)講了,舉幾個(gè)我們做的例子。第一個(gè)就是我這里給大家看到的,明年年初會(huì)開(kāi)新聞發(fā)布會(huì),讓媒體里選四個(gè)班,我們來(lái)預(yù)測(cè)這四個(gè)班的成績(jī) 排名。如果大家只是把前一個(gè)學(xué)期的成績(jī)直接挪到后一個(gè)學(xué)期,平均只能達(dá)到80%。怎么做,這里面有一個(gè)很關(guān)鍵點(diǎn),就是一個(gè)人成績(jī)變壞,不是一天兩天變的, 比如說(shuō)我原來(lái)很愛(ài)學(xué)習(xí),現(xiàn)在變成一個(gè)游戲狂,即便如此半年一年兩次考試,我還能提一提,因?yàn)樵瓉?lái)成績(jī)好,期末可以熬個(gè)夜。所以說(shuō)這個(gè)成績(jī)變壞人的生活模式 先變壞,我們可以提前讓輔導(dǎo)員知道他出了什么問(wèn)題,然后找他談話(huà),那么幫助他。怎么做?我們通過(guò)手機(jī),還有一卡通的數(shù)據(jù)就能分析到很多。我們現(xiàn)在發(fā)現(xiàn)和成 績(jī)最強(qiáng)關(guān)聯(lián)的是學(xué)生打水的數(shù)據(jù),因?yàn)槲覀儗W(xué)校對(duì)打水有要求,每500毫升開(kāi)水要花一分錢(qián),你要刷卡,這是避免大家浪費(fèi)水。就是通過(guò)這一分錢(qián)打500毫升開(kāi) 水的數(shù)據(jù)分析,發(fā)現(xiàn)打水比較少的人成績(jī)有好有壞,這個(gè)不能說(shuō)明問(wèn)題。但是打水多的人成績(jī)基本上都比較好,一旦你原來(lái)打水很多,現(xiàn)在你突然不怎么打水了,或 者打水少了,就出問(wèn)題了。很多學(xué)生真是這個(gè)問(wèn)題,這個(gè)是非常強(qiáng)的信號(hào)。
還 有一個(gè)例子是好學(xué)生差學(xué)生進(jìn)出寢室數(shù)據(jù)。好學(xué)生七點(diǎn)多的時(shí)候就出寢室了,中午不在,晚上10點(diǎn)半回來(lái),非常有規(guī)律。這個(gè)是一個(gè)典型的差學(xué)生,他白天不出寢 室,下午也不出寢室,但是星期五2點(diǎn)半到星期六12點(diǎn)都不在寢室,這是一個(gè)真實(shí)的案例。好學(xué)生去圖書(shū)館,四個(gè)多月平均去100多次,差學(xué)生去七八次,這些 信號(hào)都是非常有趣的,可以幫助我們定量化的進(jìn)行學(xué)業(yè)的預(yù)測(cè)。
最 后就是管理貧困生。有些學(xué)生由于面子的問(wèn)題,不愿意去街道辦事處的辦證明,因而申請(qǐng)不到貧困助學(xué)貸款。我們發(fā)現(xiàn)在電子科大新老校區(qū)中餐和晚餐平均一個(gè)人是 7.13塊。如果一個(gè)學(xué)生連續(xù)一個(gè)月56頓都在吃食堂,并且每頓不超過(guò)4.6塊,那么我們讓輔導(dǎo)員去他的寢室看一看到底是不是真的很貧困,如果是,征得他 個(gè)人同意,我們不像外公布名字,每個(gè)月給他打200塊助學(xué)貸款。期末的時(shí)候還會(huì)統(tǒng)計(jì),有這些助學(xué)的人到底是不是生活條件有點(diǎn)提高。我們現(xiàn)在發(fā)現(xiàn)提高的有難 度,并不是很明顯,說(shuō)明這些人還是很節(jié)省。這個(gè)我們?cè)谙胗袥](méi)有什么辦法,讓他吃的好一點(diǎn),這個(gè)我們也在思考。第二個(gè)就是我們發(fā)現(xiàn)有些貧困生他的消費(fèi)很高, 他們還在超市里買(mǎi)很多零食,每頓飯也吃很多,我們都知道,因?yàn)槲覀冇幸豢ㄍ〝?shù)據(jù)。未來(lái)我們下學(xué)期要進(jìn)行一些改變,我們要設(shè)定一些預(yù)值,把一些貧困生資格取 消掉。這也是我們要做的,通過(guò)這些辦法我們想象的是你們要裝貧困生,那你也得裝的辛苦一點(diǎn)。
今天跟大家有機(jī)會(huì)聊一聊,是給大家講一講大數(shù)據(jù)在科學(xué)教育、在高校這個(gè)平臺(tái)可以做些什么事情,最后謝謝大家。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10