
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別_數(shù)據(jù)分析師
一直以來(lái),大數(shù)據(jù)領(lǐng)域?qū)W習(xí)、采訪、總結(jié)、歸納的一些要點(diǎn)。但由于大數(shù)據(jù)還處于前期發(fā)展期,因此不可能像一些成熟的硬件產(chǎn)品線那樣,給大家相對(duì)成熟的理論。大數(shù)據(jù)落地會(huì)有哪些具體方向?技術(shù)實(shí)現(xiàn)如何搭建?我們針對(duì)大數(shù)據(jù)帶給教育的機(jī)遇與挑戰(zhàn),深入探討和分享大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別,及其行業(yè)落地的進(jìn)展情況。
一、大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別
與所有新鮮事物一樣,大數(shù)據(jù)是一個(gè)尚未被明確定義的概念。它如此年輕,以至于最時(shí)髦的大學(xué)還沒(méi)來(lái)得及趕上開(kāi)設(shè)這門專業(yè),最時(shí)髦的專家也還未能讓自己的理論一統(tǒng)江湖。所有對(duì)它進(jìn)行研究的人都還在感悟,大數(shù)據(jù)究竟與傳統(tǒng)數(shù)據(jù)有怎樣的區(qū)別。
在google scholar(谷歌學(xué)術(shù)搜索)中鍵入big data,查詢近5年來(lái)的學(xué)術(shù)著作,共有355,000篇之多;而如果輸入“big data”與“education”兩個(gè)關(guān)鍵詞,模糊匹配下約出現(xiàn)17,600條結(jié)果,而精確匹配下則不足10篇。可見(jiàn),教育領(lǐng)域的大數(shù)據(jù)挖掘,仍然是一片未開(kāi)墾,未有先來(lái)者制定規(guī)則的處女地。而在傳統(tǒng)數(shù)據(jù)領(lǐng)域,一次PISA考試就能在全世界各地產(chǎn)生300篇以上的博士論文,全世界教育與心理計(jì)量方向每年約培養(yǎng)碩士與博士5000人,教育與心理統(tǒng)計(jì)分析相關(guān)的SSCI核心期刊多達(dá)489種,為IES、ETS等機(jī)構(gòu)提供數(shù)據(jù)分析的專業(yè)機(jī)構(gòu)有160余家,從業(yè)者4000多人,而像WWC這樣的行業(yè)標(biāo)準(zhǔn)已經(jīng)形成——傳統(tǒng)的教育數(shù)據(jù)領(lǐng)域氣象格局已成,很難撼動(dòng)其已有的方法論與評(píng)價(jià)體系。
數(shù)據(jù)量與分析手段也必然走向鳥(niǎo)槍換炮。傳統(tǒng)數(shù)據(jù)中,一個(gè)學(xué)生讀完9年制義務(wù)教育產(chǎn)生的可供分析的量化數(shù)據(jù)基本不會(huì)超過(guò)10kb,包括個(gè)人與家庭基本信息,學(xué)校與教師相關(guān)信息,各門各科的考試成績(jī),身高體重等生理數(shù)據(jù),圖書館與體育館的使用記錄,醫(yī)療信息與保險(xiǎn)信息等,以及其他類別的評(píng)估數(shù)據(jù)。這樣的數(shù)據(jù)量,一臺(tái)較高配置的普通家庭電腦,初級(jí)的EXCEL或SPSS軟件就能進(jìn)行5000名以下學(xué)生量的統(tǒng)計(jì)分析工作;而雙核處理器,ACESS,SurveyCraft等軟件的配置足以完成整個(gè)區(qū)域的高級(jí)統(tǒng)計(jì)運(yùn)算。這樣的工作一般只需要中級(jí)水平的教育與心理統(tǒng)計(jì)知識(shí),一套可供按部就班進(jìn)行對(duì)照處理的數(shù)據(jù)分析模版,以及經(jīng)過(guò)兩三個(gè)月的操作培訓(xùn)就能基本勝任。
而大數(shù)據(jù)的分析則完全是另一種層面的技術(shù)。根據(jù)美國(guó)著名的課堂觀察應(yīng)用軟件開(kāi)發(fā)商Classroom Observer的研究,在一節(jié)40分鐘的普通中學(xué)課堂中一個(gè)學(xué)生所產(chǎn)生的全息數(shù)據(jù)約有5-6GB,而其中可歸類、標(biāo)簽、并進(jìn)行分析的量化數(shù)據(jù)約有50-60MB,這相當(dāng)于他在傳統(tǒng)數(shù)據(jù)領(lǐng)域中積累5000年的數(shù)據(jù)總和。而要處理這些數(shù)據(jù),需要運(yùn)用云計(jì)算技術(shù),并且需要采用Matlab,Mathematica,Maple等軟件進(jìn)行處理并進(jìn)行數(shù)據(jù)可視化。而能夠處理這些數(shù)據(jù)的專業(yè)人才一般來(lái)自數(shù)學(xué)或計(jì)算機(jī)工程領(lǐng)域,需要極強(qiáng)的專業(yè)知識(shí)與培訓(xùn),而更為難能可貴的是,大數(shù)據(jù)挖掘并沒(méi)有一定的方法,更多需要依靠挖掘者的天賦與靈感。
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最本質(zhì)的區(qū)別體現(xiàn)在采集來(lái)源以及應(yīng)用方向上。傳統(tǒng)數(shù)據(jù)的整理方式更能夠凸顯的群體水平——學(xué)生整體的學(xué)業(yè)水平,身體發(fā)育與體質(zhì)狀況,社會(huì)性情緒及適應(yīng)性的發(fā)展,對(duì)學(xué)校的滿意度等等。這些數(shù)據(jù)不可能,也沒(méi)有必要進(jìn)行實(shí)時(shí)地采集,而是在周期性、階段性的評(píng)估中獲得。傳統(tǒng)數(shù)據(jù)反應(yīng)的是教育的因變量水平,即學(xué)生的學(xué)科學(xué)習(xí)狀況如何,生理健康與心理健康狀態(tài)如何,對(duì)學(xué)校的主觀感受如何等問(wèn)題。這些數(shù)據(jù),完全是在學(xué)生知情的情況下獲得的,帶有很強(qiáng)的刻意性和壓迫性——主要會(huì)通過(guò)考試或量表調(diào)查等形式進(jìn)行——因此也會(huì)給學(xué)生帶來(lái)很大的壓力。
而大數(shù)據(jù)有能力去關(guān)注每一個(gè)個(gè)體學(xué)生的微觀表現(xiàn)——他在什么時(shí)候翻開(kāi)書,在聽(tīng)到什么話的時(shí)候微笑點(diǎn)頭,在一道題上逗留了多久,在不同學(xué)科課堂上開(kāi)小差的次數(shù)分別為多少,會(huì)向多少同班同學(xué)發(fā)起主動(dòng)交流?這些數(shù)據(jù)對(duì)其他個(gè)體都沒(méi)有意義,是高度個(gè)性化表現(xiàn)特征的體現(xiàn)。同時(shí),這些數(shù)據(jù)的產(chǎn)生完全是過(guò)程性的:課堂的過(guò)程,作業(yè)的過(guò)程,師生或生生的互動(dòng)過(guò)程之中……在每時(shí)每刻發(fā)生的動(dòng)作與現(xiàn)象中產(chǎn)生。這些數(shù)據(jù)的整合能夠詮釋教育微觀改革中自變量的水平:課堂應(yīng)該如何變革才符合學(xué)生心理特點(diǎn)?課程是否吸引學(xué)生?怎樣的師生互動(dòng)方式受到歡迎?……而最最有價(jià)值的是,這些數(shù)據(jù)完全是在學(xué)生不自知的情況下被觀察、收集的,只需要一定的觀測(cè)技術(shù)與設(shè)備的輔助,而不影響學(xué)生任何的日常學(xué)習(xí)與生活,因此它的采集也非常的自然、真實(shí)。
所以,綜合以上的觀點(diǎn),我們不難發(fā)現(xiàn),在教育領(lǐng)域中,傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)呈現(xiàn)出以下區(qū)別:
1、傳統(tǒng)數(shù)據(jù)詮釋宏觀、整體的教育狀況,用于影響教育政策決策;大數(shù)據(jù)可以分析微觀、個(gè)體的學(xué)生與課堂狀況,用于調(diào)整教育行為與實(shí)現(xiàn)個(gè)性化教育。
2、傳統(tǒng)數(shù)據(jù)挖掘方式,采集方法,內(nèi)容分類,采信標(biāo)準(zhǔn)等都已存在既有規(guī)則,方法論完整;大數(shù)據(jù)挖掘為新鮮事物,還沒(méi)有形成清晰的方法、路徑、以及評(píng)判標(biāo)準(zhǔn)。
3、傳統(tǒng)數(shù)據(jù)來(lái)源于階段性的,針對(duì)性的評(píng)估,其采樣過(guò)程可能有系統(tǒng)誤差;大數(shù)據(jù)來(lái)源于過(guò)程性的,即時(shí)性的行為與現(xiàn)象記錄,第三方、技術(shù)型的觀察采樣的方式誤差較小。
4、傳統(tǒng)數(shù)據(jù)分析所需要的人才、專業(yè)技能以及設(shè)施設(shè)備都較為普通,易獲得;大數(shù)據(jù)挖掘需要的人才,專業(yè)技能以及設(shè)施設(shè)備要求較高,并且從業(yè)者需要有創(chuàng)新意識(shí)與挖掘數(shù)據(jù)的靈感而不是按部就班者,這樣的人才十分稀缺。
2013年初,淘寶給每位商家制作了一張2012年年度消費(fèi)賬單,有趣的分析背后是隱藏電子商務(wù)對(duì)每個(gè)客戶的深刻理解
二、大數(shù)據(jù)時(shí)代潛藏的教育危機(jī)
“不得不承認(rèn),對(duì)于學(xué)生,我們知道得太少”——這是卡耐基·梅隆大學(xué)(Carnegie Mellon University)教育學(xué)院研究介紹中的一句自白,也同樣是美國(guó)十大教育類年會(huì)中出鏡率最高的核心議題。這種對(duì)于學(xué)生認(rèn)識(shí)的匱乏,在21世紀(jì)之前長(zhǎng)達(dá)數(shù)百甚至上千年的教育史中并沒(méi)有產(chǎn)生什么消極的效應(yīng),但卻在信息技術(shù)革命后的近十年來(lái)成為教育發(fā)展的致命痼疾。
“過(guò)去,對(duì)于學(xué)生來(lái)說(shuō),到學(xué)校上學(xué)學(xué)習(xí)知識(shí)具有無(wú)可辯駁的重要性,而那是因?yàn)楫?dāng)時(shí)人們能夠接觸知識(shí)的渠道太少,離開(kāi)學(xué)校就無(wú)法獲取成體系的知識(shí)”斯坦福大學(xué)教授Arnetha Ball在AERA(美國(guó)教育研究會(huì))大會(huì)主旨發(fā)言中說(shuō)道,“但是,互聯(lián)網(wǎng)的普及將學(xué)校的地位從神壇上拉了下來(lái)?!盉all的擔(dān)心不無(wú)道理。根據(jù)Kids Count Census Data Online發(fā)布的數(shù)據(jù),2012年全美在家上學(xué)(Home-Schooling)的5-17歲學(xué)生已達(dá)到197萬(wàn)人,相對(duì)逐年價(jià)下降的出生人口,這一人口比重十分可觀。
與此同時(shí),應(yīng)運(yùn)而生的則是內(nèi)容越來(lái)越精致的網(wǎng)上課堂,而創(chuàng)立于2009年并迅速風(fēng)靡全球的可汗學(xué)院(Khan Academy)正是其中的杰出代表。從知名學(xué)府的公開(kāi)課到可汗學(xué)院,這種網(wǎng)絡(luò)學(xué)習(xí)模式受到熱捧恰恰證明了:人們對(duì)于學(xué)習(xí)的熱情并沒(méi)有過(guò)去,但是人們已經(jīng)極端希望與傳統(tǒng)的學(xué)院式授課模式告別。一成不變,甚至“目中無(wú)人”的傳統(tǒng)集體教學(xué)模式在適應(yīng)越來(lái)越多元化、也越來(lái)越追求個(gè)性化的學(xué)生群體時(shí)顯得捉襟見(jiàn)肘。
可汗學(xué)院模式不但支持學(xué)生自主選擇感興趣的內(nèi)容,還可以快速跳轉(zhuǎn)到自己適合的難度,從而提高了學(xué)習(xí)的效率。學(xué)習(xí)者沒(méi)有學(xué)習(xí)的壓力,時(shí)長(zhǎng)、時(shí)機(jī)、場(chǎng)合、回顧遍數(shù)都可以由自己控制。
可以想象,如果可汗學(xué)院的模式進(jìn)一步發(fā)展,與計(jì)算機(jī)自適應(yīng)(CAT)的評(píng)估系統(tǒng)相聯(lián)系,讓使用者可以通過(guò)自我評(píng)估實(shí)現(xiàn)對(duì)學(xué)習(xí)進(jìn)度的掌握以及學(xué)習(xí)資料的精準(zhǔn)獲取,那么它將形成互聯(lián)網(wǎng)產(chǎn)品的“閉環(huán)”,其優(yōu)勢(shì)與力量將是顛覆性的。
而如果傳統(tǒng)教育的課程模式不革新,課堂形態(tài)不脫胎換骨,教師角色與意識(shí)不蛻變,那么學(xué)校的存在就只有對(duì)現(xiàn)代化學(xué)習(xí)資源匱乏的學(xué)生才有意義;而對(duì)于能夠自主獲得更適宜學(xué)習(xí)資源的學(xué)生來(lái)說(shuō),去學(xué)??赡苤皇菫榱送瓿梢豁?xiàng)社會(huì)角色賦予的義務(wù),甚至談不上必要性,也就更談不上愉快的體驗(yàn)或興趣的驅(qū)使了。
大數(shù)據(jù)的研究可以幫助教育研究者重新審視學(xué)生的需求,通過(guò)高新的技術(shù)以及細(xì)致的分析找到怎樣的課程、課堂、教師是能夠吸引學(xué)生的。但問(wèn)題在于,社會(huì)發(fā)展給予教育研究者的時(shí)間窗口并不寬裕,因?yàn)橛刑嗳送瑯釉谠噲D通過(guò)大數(shù)據(jù)挖掘設(shè)法瓜分學(xué)生們有限的精力與注意力。而且從某種程度上,他們做得遠(yuǎn)比教育研究者更有動(dòng)力與誠(chéng)意。
首當(dāng)其沖的是游戲的設(shè)計(jì)者——青少年是其主要消費(fèi)群體。撇開(kāi)馳名世界的暴雪公司(Blizzard Entertainment),美國(guó)藝電公司(Electronic Arts Inc.),日本任天堂公司(Nintendo)等國(guó)際巨鱷不談;即使是國(guó)內(nèi)的盛大網(wǎng)絡(luò),第九城市,巨人科技,淘米網(wǎng)絡(luò)等游戲公司,亦都早已組建了專業(yè)實(shí)力強(qiáng)勁的“用戶體驗(yàn)”研究團(tuán)隊(duì)。他們會(huì)通過(guò)眼動(dòng)跟蹤,心律跟蹤,血壓跟蹤,鍵盤與鼠標(biāo)微操作速率等各種微觀行為來(lái)研究如何讓玩家在游戲中投入更多的時(shí)間,更加愿意花真實(shí)世界的錢來(lái)購(gòu)買虛擬世界的物品。什么時(shí)候應(yīng)該安排敵人出現(xiàn),敵人應(yīng)當(dāng)是什么級(jí)別,主人公需要耗費(fèi)多少精力才能夠?qū)⑵鋼魯?,這些變量都得到了嚴(yán)格的設(shè)計(jì)與控制,原因只有一個(gè)——大數(shù)據(jù)告訴游戲創(chuàng)作者,這樣的設(shè)計(jì)是最能夠吸引玩家持續(xù)游戲的。
其次是電影視頻、青春小說(shuō)等鏈?zhǔn)轿幕a(chǎn)業(yè)。為什么在網(wǎng)站上看視頻會(huì)一個(gè)接一個(gè),無(wú)法停止,因?yàn)樗鼤?huì)根據(jù)該賬號(hào)的歷史瀏覽記錄推算出其喜歡看什么樣的視頻,喜歡聽(tīng)什么類型風(fēng)格的歌,并投其所好;而暢銷網(wǎng)絡(luò)小說(shuō)看似并沒(méi)有“營(yíng)養(yǎng)”,但里面的遣詞造句、語(yǔ)段字?jǐn)?shù),故事起伏設(shè)定,甚至主人公性格的類型都是有相關(guān)研究進(jìn)行支持——讀者往往并不喜歡結(jié)構(gòu)嚴(yán)密、精心設(shè)計(jì)的劇情——這就是為什么情節(jié)千篇一律的韓劇受人追捧的原因,他們通過(guò)收視率的反復(fù)研究,挖掘到了觀眾最需要的那些元素,并且屢試不爽。
此外還有許多更強(qiáng)大的研究者,比如電子商務(wù),總能通過(guò)數(shù)據(jù)找到你可能愿意購(gòu)買的商品——他們甚至知道買尿片的父親更愿意買啤酒。
這些領(lǐng)域看似與我們教育者并無(wú)特別關(guān)聯(lián),但是他們與我們最關(guān)心的對(duì)象——學(xué)生卻有著千絲萬(wàn)縷的聯(lián)系。數(shù)百年甚至數(shù)十年前,學(xué)生并不會(huì)面對(duì)如此多的誘惑,學(xué)校在其生活中占據(jù)極大比重,對(duì)其影響也最為顯著,因此教育者對(duì)于學(xué)生的控制總是有著充分的自信。但是,當(dāng)不同的社會(huì)機(jī)構(gòu)與產(chǎn)品開(kāi)始爭(zhēng)奪學(xué)生的注意力時(shí),教育者的自信就只能被認(rèn)為是一種無(wú)法認(rèn)清形勢(shì)的傲慢了——因?yàn)樵谶@場(chǎng)“學(xué)生爭(zhēng)奪戰(zhàn)”中,傳統(tǒng)學(xué)??瓷先?shí)在缺乏競(jìng)爭(zhēng)力。
即使教育研究者愿意放下身段,通過(guò)大數(shù)據(jù)的幫助來(lái)悉心研究學(xué)生的需求與個(gè)性。但是人才的匱乏也是非常不利的一點(diǎn)因素——相比于商業(yè)環(huán)境下對(duì)研究實(shí)效的追逐,教育研究的緩慢與空洞顯得相形見(jiàn)絀。在互聯(lián)網(wǎng)企業(yè)紛紛拋出“首席數(shù)據(jù)官”的頭銜,向各種數(shù)據(jù)科學(xué)狂人拋出橄欖枝,并且在風(fēng)險(xiǎn)投資的鼓舞下,動(dòng)輒以百萬(wàn)年薪進(jìn)行延聘時(shí),大數(shù)據(jù)研究的前沿陣地必然仍是在互聯(lián)網(wǎng)行業(yè)中最轟轟烈烈地開(kāi)戰(zhàn)。
分析形勢(shì)后的姿態(tài),以及投入的力度與強(qiáng)度,或許是教育領(lǐng)域在進(jìn)入大數(shù)據(jù)研究時(shí)最先需要充分考慮的兩個(gè)先決條件。
三、誰(shuí)在為大數(shù)據(jù)歡呼:一場(chǎng)關(guān)于“人性”研究的啟蒙
孜孜不倦地觀測(cè)、記錄、挖掘海量的數(shù)據(jù),有朝一日終會(huì)推導(dǎo)出或簡(jiǎn)約或繁復(fù)的方程,以此得以在自然科學(xué)的歷史豐碑上留名——數(shù)百年來(lái),這種對(duì)數(shù)據(jù)的崇拜早已成為了物理學(xué)家、化學(xué)家、生物學(xué)家、天文地理學(xué)家們的信念。而牛頓,貝葉斯,薛定諤等一代代巨匠的偉業(yè)也揭示了數(shù)據(jù)對(duì)于科學(xué)發(fā)現(xiàn)的無(wú)限重要價(jià)值。
相形之下,社會(huì)科學(xué)領(lǐng)域的研究就要慘淡地多——他們同樣看重?cái)?shù)據(jù),同樣追求統(tǒng)計(jì)與分析的“程序正義”,同樣勤勤懇懇地設(shè)計(jì)實(shí)驗(yàn)與調(diào)研,去尋找成千上萬(wàn)的被試,同樣像模像樣地去嵌套方程……但是幾乎很少有研究結(jié)果能夠得到普遍的承認(rèn),不管是社會(huì)學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)、管理學(xué)還是教育學(xué)。
當(dāng)然,社會(huì)科學(xué)領(lǐng)域的研究者們遇到的困難是顯而易見(jiàn)的:“人性”與“物性”是不同的,物質(zhì)世界比較穩(wěn)定,容易尋找規(guī)律;而由人組成的社會(huì)極其善變,難以總結(jié)。從數(shù)據(jù)的角度來(lái)說(shuō),人的數(shù)據(jù)不如物的數(shù)據(jù)那么可靠:
首先是人不會(huì)像物那樣忠實(shí)地進(jìn)行回應(yīng):誰(shuí)知道一個(gè)人填寫的問(wèn)卷有多少是注意力不集中填錯(cuò)的、語(yǔ)文水平不高理解錯(cuò)的、還是壓根沒(méi)打算講真話?此外,人與人本身的差距也大于物與物的差距:兩個(gè)化學(xué)組成相同的物質(zhì)表現(xiàn)出各種性質(zhì)幾乎是完全一樣的,但即使是兩個(gè)基因完全相同的雙胞胎也會(huì)因?yàn)椴煌娜松?jīng)驗(yàn),而表現(xiàn)出大相徑庭的行為特征。
但這些都還并不關(guān)鍵,最最重要的是:人無(wú)法被反復(fù)研究。人不是牛頓的木塊,不是伽利略的鉛球,不是巴普洛夫的狼狗,人不會(huì)配合一次次從斜坡上被滑下來(lái),一次次從比薩塔頂被扔下來(lái),一次次流著口水干等著送肉來(lái)的鈴聲。而我們知道,在“科學(xué)”的三個(gè)標(biāo)準(zhǔn)中,首當(dāng)其沖的就是“可重復(fù)驗(yàn)證”。
換句話說(shuō),我們可以獲得的關(guān)于“人性”的數(shù)據(jù)不夠大,不夠多,不夠隨時(shí)隨地,因此我們無(wú)法從數(shù)據(jù)中窺見(jiàn)人性。2002年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)授予心理學(xué)家丹尼爾?卡尼曼(Daniel Kahneman)時(shí),似乎標(biāo)示著社會(huì)科學(xué)領(lǐng)域已經(jīng)接受了這樣一種事實(shí):人類的行為是無(wú)法尋找規(guī)律、無(wú)法預(yù)測(cè)、難以進(jìn)行科學(xué)度量的。社會(huì)科學(xué)開(kāi)始懷疑用純粹理性的方法是否可以解答關(guān)于“人性”的種種現(xiàn)象。與此相映成趣的是2012年的美國(guó)大選,奧巴馬的團(tuán)隊(duì)依靠對(duì)網(wǎng)絡(luò)數(shù)據(jù)的精準(zhǔn)篩選捕捉到了大量的“草根”選民,而對(duì)于其喜好與需求的分析與把握更是贏得其信任,從而在不被傳統(tǒng)民調(diào)與歷史數(shù)據(jù)規(guī)律看好的情況下一舉勝出。這跨越十年的兩個(gè)標(biāo)志性事件讓人們對(duì)于“數(shù)據(jù)揭示人性”可能性的認(rèn)識(shí)經(jīng)歷了戲劇性的轉(zhuǎn)變。
如今,迅速普及的互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)悄然為記錄人的行為數(shù)據(jù)提供了最為便利、持久的載體。手機(jī),iPad等貼近人的終端無(wú)時(shí)不刻不在記錄關(guān)于人的點(diǎn)點(diǎn)滴滴思考、決策與行為。最最重要的是,在這些強(qiáng)大的數(shù)據(jù)收集終端面前,人們沒(méi)有掩飾的意圖,人們完整地呈現(xiàn)著自己的各種經(jīng)歷,人們不厭其煩一遍又一遍重復(fù)著他們不愿在實(shí)驗(yàn)情境下表現(xiàn)出來(lái)的行為,從而創(chuàng)造著海量的數(shù)據(jù)——傳統(tǒng)數(shù)據(jù)研究無(wú)法做到的事,傳統(tǒng)研究范式苦苦糾結(jié)的許多難點(diǎn),都在大數(shù)據(jù)到來(lái)的那一剎那遁于無(wú)形。
大數(shù)據(jù)的到來(lái),讓所有社會(huì)科學(xué)領(lǐng)域能夠藉由前沿技術(shù)的發(fā)展從宏觀群體走向微觀個(gè)體,讓跟蹤每一個(gè)人的數(shù)據(jù)成為了可能,從而讓研究“人性”成為了可能。而對(duì)于教育研究者來(lái)說(shuō),我們比任何時(shí)候都更接近發(fā)現(xiàn)真正的學(xué)生。本文來(lái)源:CDA數(shù)據(jù)分析師官網(wǎng)
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10