教育大數(shù)據(jù)的核心技術(shù)、應(yīng)用現(xiàn)狀與發(fā)展趨勢
大數(shù)據(jù)是近年來快速發(fā)展的技術(shù)領(lǐng)域。關(guān)于大數(shù)據(jù)的研究與應(yīng)用與日俱增,并不斷深入影響社會生活。購物推薦、路況分析乃至高考預(yù)測等與大眾密切相關(guān)的應(yīng)用,充分展現(xiàn)了大數(shù)據(jù)的力量。2016年3月,AlphaGo與李世石的人機大戰(zhàn),讓人們從更深層次上認識了大數(shù)據(jù)驅(qū)動下的人工智能對人類社會的深層影響。根據(jù)大數(shù)據(jù)版圖(Big
Data
Landscape)3.0版本的描繪,大數(shù)據(jù)相關(guān)基礎(chǔ)設(shè)施、分析工具和應(yīng)用系統(tǒng)都在快速發(fā)展中[1]。這個逐年擴展的圖景表明了大數(shù)據(jù)的疆域正在不斷延展,領(lǐng)域應(yīng)用不斷深化,影響力與日俱增。
在教育領(lǐng)域中,大數(shù)據(jù)已經(jīng)在多方面引起了研究者和實踐者的關(guān)注。無論是從研究范式、技術(shù)應(yīng)用,還是實踐案例都在快速發(fā)展之中。教育大數(shù)據(jù)正在成為教育領(lǐng)域不可忽視的新型驅(qū)動力,在教育教學研究與實踐中發(fā)揮著越來越重要的作用。
作為一個新興領(lǐng)域,大數(shù)據(jù)技術(shù)仍在快速迭代之中,新方法、新工具和新模式不斷涌現(xiàn)。在教育大數(shù)據(jù)這個細分領(lǐng)域之中,在契合大數(shù)據(jù)發(fā)展整體趨勢的同時,具有自身的鮮明特性。在教育大數(shù)據(jù)日趨矚目的今天,在研究大數(shù)據(jù)技術(shù)的基礎(chǔ)上,分析教育大數(shù)據(jù)的定義內(nèi)涵、實踐范例、發(fā)展趨勢與面臨挑戰(zhàn),有助于我們把握教育大數(shù)據(jù)的整體圖景,因應(yīng)技術(shù)發(fā)展,推動教育的系統(tǒng)化變革。
一、大數(shù)據(jù)技術(shù)的發(fā)展趨勢
大數(shù)據(jù)技術(shù)的緣起,可以回溯到2004年谷歌公司提出的MapReduce模型[2]。在十幾年時間里,大數(shù)據(jù)技術(shù)從概念走向應(yīng)用,形成了以hadoop為代表的一整套技術(shù)。時至今日,大數(shù)據(jù)技術(shù)仍在快速發(fā)展之中,無論是基礎(chǔ)框架、分析技術(shù),還是應(yīng)用系統(tǒng)都在不斷演變和完善。據(jù)統(tǒng)計,2015年美國大數(shù)據(jù)初創(chuàng)企業(yè)獲得的融資額達到了66.4億美元,占整個技術(shù)領(lǐng)域總?cè)谫Y額的11%。這代表著大數(shù)據(jù)領(lǐng)域具有蓬勃的活力并受到市場的肯定。大數(shù)據(jù)技術(shù)的發(fā)展方向是技術(shù)發(fā)展與應(yīng)用需求相互推進的結(jié)果,對大數(shù)據(jù)技術(shù)趨勢的分析,有助于從更本質(zhì)的層面理解這個領(lǐng)域的現(xiàn)狀。
(一)基礎(chǔ)架構(gòu)
歷經(jīng)多年發(fā)展,大數(shù)據(jù)基礎(chǔ)設(shè)施正在向著快速、便捷與整合的方向發(fā)展。
Hadoop框架是大數(shù)據(jù)分析的重要基礎(chǔ)框架。但它存在著計算速度慢、運維復雜等問題。基于
Hadoop衍生出了如Spark、Pig等框架,正在不斷提升計算性能和優(yōu)化處理流程。與
Hadoop相比,Spark的抽象層次更高,計算速度更快,編程更加簡便。更重要的是,Spark提供了統(tǒng)一的數(shù)據(jù)平臺,通過不同的模塊支持了不同類型的數(shù)據(jù)應(yīng)用。通過Spark
Core支持批處理,通過Spark
SQL支持數(shù)據(jù)交互,通過Spark
Streaming支持流式存儲,通過MLlib支持
機器學習,通過GrphaX支持圖計算[3]。
在大數(shù)據(jù)基礎(chǔ)設(shè)施中,各種新技術(shù)不斷產(chǎn)生,數(shù)據(jù)湖(Data
Lake)和霧計算(Fog
Computing)分別從數(shù)據(jù)的集中與分布的不同角度給出了解決方案。數(shù)據(jù)湖是大型的基于對象的存儲庫,數(shù)據(jù)以其原始格式存儲。不需要對數(shù)據(jù)進行轉(zhuǎn)換,就可以進行全面的監(jiān)控和分析,并建立數(shù)據(jù)模型。與一般意義的數(shù)據(jù)匯聚不同,數(shù)據(jù)湖不需要改變原始數(shù)據(jù)的結(jié)構(gòu),而是支持分析原始數(shù)據(jù)。這個方式消除了數(shù)據(jù)抽取、轉(zhuǎn)換和加載ETL的成本。為了達到不改變數(shù)據(jù)結(jié)構(gòu)直接存儲和技術(shù)的目標,數(shù)據(jù)湖對元數(shù)據(jù)有很高的要求。目前,數(shù)據(jù)湖技術(shù)仍在起步階段,還存在原始數(shù)據(jù)差別大、類型復雜、分析應(yīng)用困難等問題。但它有助于企業(yè)完成更長遠的數(shù)據(jù)規(guī)劃,建立數(shù)據(jù)治理結(jié)構(gòu),并預(yù)先解決安全問題[4]。數(shù)據(jù)湖與一般大數(shù)據(jù)匯集方式的對比,如表1所示。
與
數(shù)據(jù)湖側(cè)重數(shù)據(jù)的聚集不同,霧計算則提出了一種分布式解決方案。霧計算這一名詞最早來自網(wǎng)絡(luò)安全領(lǐng)域,后來由思科(Cisco)公司借用,并賦予了
分布式計算的含義。思科將霧解釋為“更貼近地面的云”,霧計算是
云計算的延伸。與
云計算不同,霧計算并非由性能強大的服務(wù)器組成,而是由性能較弱、更為分散的各類計算模塊和智能網(wǎng)絡(luò)設(shè)置組成,這些低延遲且有能力進行位置感知的模塊可以融入各類基礎(chǔ)設(shè)施,乃至生活用品[5]。
可以預(yù)見,隨著物聯(lián)網(wǎng)的不斷發(fā)展,來自各類終端的數(shù)據(jù)量會激增。面對這一情況,云計算的瓶頸可能會凸顯。在霧計算中,數(shù)據(jù)、分析和應(yīng)用都集中在網(wǎng)絡(luò)的終端節(jié)點,只在需要的時候匯集到云中。云計算與霧計算的對比,如表2所示。
霧計算將計算能力延伸到了網(wǎng)絡(luò)的邊緣的各類智能設(shè)備。在這種模式下,智能設(shè)備的管理與交互就變得非常重要。比如,比特幣的底層技術(shù)“區(qū)塊鏈”(Block
Chain)形成了行動登記、權(quán)屬確認和智能管理模式。這為通過網(wǎng)絡(luò)實現(xiàn)各種智能終端和設(shè)備實現(xiàn)自我管理和智能交互,提供了新的技術(shù)支持[6]。
數(shù)據(jù)湖和霧計算著眼于大數(shù)據(jù)的源頭和終端,從分布和集中兩個角度提供了解決方案。誠然,這些方案需要通過實踐進行檢驗。但總體而言,
數(shù)據(jù)湖和霧計算代表著大數(shù)據(jù)分析基礎(chǔ)設(shè)施的發(fā)展趨勢,即采用更靈活的方式獲取和處理終端數(shù)據(jù),合理分布計算負載,對核心數(shù)據(jù)進行廣泛匯集,通過定制標準實現(xiàn)數(shù)據(jù)治理。
(二)分析技術(shù)
分析技術(shù)是基于大數(shù)據(jù)進行模型構(gòu)建,并進行評價、推薦和預(yù)測等具體應(yīng)用的基礎(chǔ)。大數(shù)據(jù)分析技術(shù)在近年得到快速發(fā)展,智能化、實時化和易用性成為了分析技術(shù)的發(fā)展
特征。
1.智能化
在分析技術(shù)方面,大數(shù)據(jù)與機器學習相結(jié)合形成的新型人工智能,已經(jīng)成為近年最引人矚目的趨勢。大數(shù)據(jù)與機器學習正讓數(shù)據(jù)分析在統(tǒng)計分析的基礎(chǔ)上,更快速地實現(xiàn)智能關(guān)系發(fā)現(xiàn)和預(yù)測,如圖1所示。AlphaGo就是這一趨勢的典型應(yīng)用范例。在海量數(shù)據(jù)的基礎(chǔ)上,以深度學習為代表的創(chuàng)新算法,通過大規(guī)模并行計算,不斷迭代演化,最終形成了能夠戰(zhàn)勝人類的數(shù)據(jù)智能。
圖1 數(shù)據(jù)與算法迭代演化形成數(shù)據(jù)智能
大數(shù)據(jù)與
機器學習整合所實現(xiàn)的人工智能,其意義不限于特定的領(lǐng)域應(yīng)用,而是實現(xiàn)了一般性人工智能技術(shù)的突破。這一突破將在醫(yī)療、交通、金融和教育等為代表的各個應(yīng)用領(lǐng)域產(chǎn)生重大影響。從更為廣闊的角度,以智慧城市為代表的智能化系統(tǒng)解決方案,預(yù)示著智能化大數(shù)據(jù)技術(shù)綜合應(yīng)用的未來前景。由各類設(shè)備和傳感器獲得的數(shù)據(jù),可以成為智能化分析的數(shù)據(jù)來源。基于大數(shù)據(jù)的
機器學習在完成海量數(shù)據(jù)匯集與分析的同時,不斷演化、提高自身智能水平。數(shù)據(jù)分析結(jié)果驅(qū)動智慧城市各個組成部分的智能化活動,基于數(shù)據(jù)智能的新型技術(shù)架構(gòu),為未來城市的智慧生活奠定了基礎(chǔ)。
2.實時化
實時分析是大數(shù)據(jù)技術(shù)的另一個發(fā)展方向。隨著大數(shù)據(jù)技術(shù)的深入發(fā)展,各類應(yīng)用對于數(shù)據(jù)的實時分析和處理的要求不斷提高。與針對歷史數(shù)據(jù)的聚合和分析不同,實時數(shù)據(jù)分析具有更強的時效性,也對數(shù)據(jù)存儲、計算和呈現(xiàn)提出了更高要求。
Hadoop中的批處理框架在對實效性要求較高的分析,例如,實時用戶行為分析、用戶分類和推薦等應(yīng)用場景中的局限日益凸顯。Spark
Streaming、Samza、Storm等流式實時計算框架應(yīng)運而生。以Spark
Streaming為代表的實時分析框架具有優(yōu)秀的調(diào)度機制,快速的
分布式計算能力,在數(shù)據(jù)的匯聚和批處理之間通過關(guān)鍵參數(shù)建立平衡,提升了數(shù)據(jù)吞吐量和性能,對實時計算提供了有效支持[7]。實時性預(yù)示著大數(shù)據(jù)將更深度地融入人們的工作和生活之中,在交通、翻譯等需要及時響應(yīng)的領(lǐng)域中,大數(shù)據(jù)會體現(xiàn)出更強大的作用。
3.易用性
近年來,隨著技術(shù)的不斷成熟,大數(shù)據(jù)應(yīng)用的門檻不斷降低。Google、微軟等巨頭不斷推出大數(shù)據(jù)技術(shù)平臺。我國互聯(lián)網(wǎng)三巨頭百度、阿里和騰訊分別推出了百度開放云、阿里數(shù)加和騰訊大數(shù)據(jù)平臺,在應(yīng)用技術(shù)方面提供了全面的支持。從數(shù)據(jù)匯集、模型構(gòu)建到可視化應(yīng)用方面都提供了高質(zhì)量的解決方案。并且,這些分析框架中存在很多優(yōu)秀的開源項目,如,
Caffe、Torch等[8]。Google為Tensor
Flow的開源分析工具提供了一個重要選擇,Tensor Flow的開發(fā)者來自Google
Brain團隊,它整合了Google在搜索引擎、電子郵件和翻譯、圖像識別等方面的分析成果。并且應(yīng)用了數(shù)據(jù)圖技術(shù)(Data Flow
Graphic)將模型構(gòu)建過程和產(chǎn)品開發(fā)緊密結(jié)合,在完成建模實驗之后就可以直接將代碼應(yīng)用到產(chǎn)品中。易用性為大數(shù)據(jù)在垂直領(lǐng)域的應(yīng)用鋪平了道路。
(三)領(lǐng)域應(yīng)用
在基礎(chǔ)框架和應(yīng)用技術(shù)的支持之下,大數(shù)據(jù)在各個領(lǐng)域中的應(yīng)用也在不斷快速地深入發(fā)展,展現(xiàn)出了領(lǐng)域應(yīng)用深化與融合、可視化應(yīng)用廣泛和產(chǎn)業(yè)生態(tài)鏈萌發(fā)的
特征。
1.領(lǐng)域深化與融合
大數(shù)據(jù)在方法論層面上影響著多個領(lǐng)域的研究與實踐[9-11],作為新的研究范式影響著眾多學科。在各個領(lǐng)域應(yīng)用中,大數(shù)據(jù)作為基礎(chǔ)方法與工具有著一定的普適性,也具有鮮明的領(lǐng)域
特征與領(lǐng)域差異。數(shù)據(jù)不同于金融、交通、零售等領(lǐng)域有著較為明確的量化指標作為
機器學習的依據(jù)。在教育等社會科學相關(guān)領(lǐng)域中,大數(shù)據(jù)分析模型建立過程中形成的類量化指標往往很難獲得。這就使得教育領(lǐng)域的模型構(gòu)建具有了一定的獨特性。同時,教育教學自身的周期性和復雜性,也為模型構(gòu)建提出了新的挑戰(zhàn)。
隨著大數(shù)據(jù)的發(fā)展,領(lǐng)域應(yīng)用將逐步深入。在各個領(lǐng)域中需要借助領(lǐng)域知識,針對領(lǐng)域問題進行深層次研究與實踐。在此過程中,以數(shù)據(jù)為橋梁,各個領(lǐng)域的融合將成為可能。例如,始于氣象系統(tǒng)的DMSP/OLS夜間燈光數(shù)據(jù),已經(jīng)在遙感測繪、城市規(guī)劃、人口估計、國民經(jīng)濟測算、能源消耗以及生態(tài)環(huán)境影響評估方面取得了令人矚目的成果[12]?;诖髷?shù)據(jù),各個領(lǐng)域自身發(fā)生深刻變化的同時,領(lǐng)域之間的比較出現(xiàn)加速融合的趨勢。大數(shù)據(jù)技術(shù)在領(lǐng)域內(nèi)的深入發(fā)展,和領(lǐng)域間的融合發(fā)展將日趨重要。
2.可視化應(yīng)用
可視化是大數(shù)據(jù)應(yīng)用的呈現(xiàn)層面,直接面向終端用戶,并通過各類應(yīng)用場景服務(wù)各類人群。
數(shù)據(jù)可視化可以通過多種方式實現(xiàn),從較為底層的
R語言Ggplot擴展包、
D3函數(shù)庫,到SPSS
Modeler、Tableau等數(shù)據(jù)分析和可視化工具。
數(shù)據(jù)可視化的方法和工具種類繁多,近年來,可視化工具的應(yīng)用門檻不斷降低。SAP、Tableau等重量級數(shù)據(jù)分析企業(yè)都推出了移動端
數(shù)據(jù)可視化工具。以SAP的Roambi為例,只需要導入數(shù)據(jù)集,選擇模板,Roambi就能夠馬上完成精美的可視化圖表并支持互動[13]。Tableau不僅推出了Tableau
Mobile支持移動端數(shù)據(jù)分析,還通過Tableau
Public和Desktop等工具,構(gòu)建了包含桌面分析、在線發(fā)布和移動應(yīng)用的整體可視化方案[14]。
在各類工具支持下,
數(shù)據(jù)可視化的應(yīng)用門檻大大降低,為更加廣泛的應(yīng)用奠定了基礎(chǔ)。
數(shù)據(jù)可視化作為大數(shù)據(jù)技術(shù)的表現(xiàn)層,是數(shù)據(jù)分析與洞察的“最后一英里”。隨著這個環(huán)節(jié)的不斷優(yōu)化與人性化,數(shù)據(jù)分析的廣泛應(yīng)用指日可待。
3.生態(tài)鏈萌發(fā)
2015年8月,國務(wù)院發(fā)布的《促進大數(shù)據(jù)發(fā)展行動綱要》,將大數(shù)據(jù)定位于推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力,重塑國家競爭優(yōu)勢的新機遇以及提升政府治理能力的新途徑[15]?!洞龠M大數(shù)據(jù)發(fā)展行動綱要》成為了大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的政策依據(jù),必將對大數(shù)據(jù)產(chǎn)業(yè)發(fā)展起到催化作用。大數(shù)據(jù)產(chǎn)業(yè)的資金投入、基礎(chǔ)設(shè)施、數(shù)據(jù)標準、應(yīng)用平臺、區(qū)域?qū)嵺`必將呈現(xiàn)加速發(fā)展趨勢。同時,正如前文所述,大型互聯(lián)網(wǎng)企業(yè)如百度、阿里和騰訊等,已經(jīng)在大數(shù)據(jù)領(lǐng)域發(fā)力,并開始構(gòu)建基礎(chǔ)設(shè)施、制定標準、推廣應(yīng)用,在各個應(yīng)用領(lǐng)域的大數(shù)據(jù)實踐也在快速開展。
可見,在政策重點支持、工具平臺日漸成熟、領(lǐng)域應(yīng)用不斷深入的合力之下,大數(shù)據(jù)產(chǎn)業(yè)鏈正逐步形成,生態(tài)體系正在孕育之中。生態(tài)鏈將催生一系列數(shù)據(jù)標準,形成多種整合型技術(shù)路線,打通原始數(shù)據(jù)到終端應(yīng)用,將大數(shù)據(jù)應(yīng)用推向新的層次。
二、教育大數(shù)據(jù)的含義
教育大數(shù)據(jù)的含義,需要從數(shù)據(jù)和技術(shù)兩個層面進行解析。在引用較多的大數(shù)據(jù)定義中,維基百科定義[16]和麥肯錫(McKinsey)定義[17]都強調(diào)了大數(shù)據(jù)的量,無法用常見數(shù)據(jù)工具處理;而高德納(Gartner)定義則著眼于數(shù)據(jù)的特性與價值[18]。為了解析教育大數(shù)據(jù)的真正意義,需要對教育大數(shù)據(jù)的構(gòu)成和特性進行分析。
在教育大數(shù)據(jù)的構(gòu)成方面,在線學習的數(shù)據(jù)首當其沖。可以說教育大數(shù)據(jù)的廣受關(guān)注,與在線教與學的盛行有著密不可分的關(guān)系。在舍恩伯格的《與大數(shù)據(jù)同行——學習和教育的未來》一書中,第一個大數(shù)據(jù)教育應(yīng)用案例就來自在線學習。隨著在線教學的日益普及,在教與學過程中,由學習管理系統(tǒng)和各類移動設(shè)備所記錄下來的各類海量數(shù)據(jù),成為分析教學過程的重要來源。這些數(shù)據(jù)包括記錄學習過程的行為數(shù)據(jù),記錄學習結(jié)果的評價數(shù)據(jù),以及學習形成的社會網(wǎng)絡(luò)關(guān)系數(shù)據(jù)等。由這些數(shù)據(jù)拓展開來,教育大數(shù)據(jù)還包含著各類學生個人信息數(shù)據(jù)、教學管理數(shù)據(jù)等??梢?,教育大數(shù)據(jù)來自于教育教學的主體和過程。
依照不同層級的主體和教育教學活動的各項內(nèi)容,教育大數(shù)據(jù)可以分為四個層次和六大類型。四個層次包括個體、學校、區(qū)域和國家;六大類型包括基礎(chǔ)數(shù)據(jù)、教學數(shù)據(jù)、科研數(shù)據(jù)、管理數(shù)據(jù)、服務(wù)數(shù)據(jù)和輿情數(shù)據(jù)。其中,基礎(chǔ)數(shù)據(jù)包括以人口學為代表的學習者基本信息數(shù)據(jù);教學數(shù)據(jù)包括教學過程中涉及的過程、內(nèi)容和結(jié)果數(shù)據(jù);科研數(shù)據(jù)包括各類教育教學實驗與科研項目當中所獲得的數(shù)據(jù);管理數(shù)據(jù)包括各類教育管理系統(tǒng)當中所記錄下來的數(shù)據(jù),如,學生的學籍數(shù)據(jù)、檔案數(shù)據(jù)和各類統(tǒng)計數(shù)據(jù)等等;服務(wù)數(shù)據(jù)包括各類與教育教學相關(guān)的服務(wù)系統(tǒng)當中記錄的數(shù)據(jù),如,各類師生生活服務(wù)、圖書檔案服務(wù)等等;輿情數(shù)據(jù)包括各類公開媒體中與教育相關(guān)的數(shù)據(jù),如,各類教育新聞數(shù)據(jù)、微博等社會網(wǎng)絡(luò)系統(tǒng)中教育相關(guān)數(shù)據(jù)等。
從
特征的角度看,大數(shù)據(jù)的特點往往被概括為4V,包括海量規(guī)模(Volume)、快速流轉(zhuǎn)(Velocity)、多樣構(gòu)成(Variety)和巨大價值(Value)。教育大數(shù)據(jù)的
特征與4V既有重合又有不同:首先,從規(guī)模上看,教育大數(shù)據(jù)的體量尚未達到零售業(yè)、電信業(yè)等領(lǐng)域的規(guī)模,但已經(jīng)超出了傳統(tǒng)數(shù)據(jù)工具的處理能力。其次,從流動速度的角度,教育大數(shù)據(jù)流轉(zhuǎn)速度相對較慢,并不像交易數(shù)據(jù)、搜索數(shù)據(jù)或通訊數(shù)據(jù)具有快速流轉(zhuǎn)的特性。相應(yīng)地,教育教學的周期性決定了教育大數(shù)據(jù)具有典型的周期性。進而從數(shù)據(jù)構(gòu)成方面看,教育大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù),特別是音視頻數(shù)據(jù)占很大比重。這些數(shù)據(jù)來自課堂錄像、教學資源等,不同于傳統(tǒng)數(shù)據(jù)庫記錄的數(shù)據(jù),具有一定的分析復雜性。同時與電商等領(lǐng)域中步驟清晰、結(jié)果明確、周期較短的交易活動不同,教育教學活動具有更高的過程復雜性。通過教育大數(shù)據(jù)分析發(fā)現(xiàn)規(guī)律也就更為困難??梢娊逃髷?shù)據(jù)的
特征可以概括為強周期性、高復雜性和巨大價值。
綜上所述,我們可以把教育大數(shù)據(jù)定義為:服務(wù)教育主體和教育過程,具有強周期性和巨大教育價值的高復雜性數(shù)據(jù)集合,具體如圖2所示。
圖2 教育大數(shù)據(jù)的構(gòu)成
三、教育大數(shù)據(jù)的應(yīng)用
對于教育大數(shù)據(jù)的應(yīng)用,研究者從不同的角度提出了各自的思考。祝智庭教授從研究范式的角度,提出了大數(shù)據(jù)對教育技術(shù)研究方法的啟示,并著重強調(diào)了數(shù)據(jù)支持下的自適應(yīng)學習。鄭燕林和柳海民認為,教育大數(shù)據(jù)的應(yīng)用主要是對教育評價和教育教學決策的支持[19]。胡弼成和王祖霖將大數(shù)據(jù)應(yīng)用總結(jié)為通過評價和預(yù)測促進教學有效性,基于變化的教育形式和復雜關(guān)系推動教育決策的科學性,完整、全面、動態(tài)的質(zhì)量監(jiān)控體系[20]。楊現(xiàn)民等研究者認為,教育大數(shù)據(jù)應(yīng)用可以分為政策科學化、區(qū)域教育均衡、學校教育質(zhì)量提升、課程體系與教學效果最優(yōu)化、個體的個性化發(fā)展等層面[21]。
大數(shù)據(jù)對教育領(lǐng)域的沖擊是全面性的。它能夠改變個體學習者的學習狀況、對教育規(guī)律的認識深度、教育政策的制定方式,乃至整個教育系統(tǒng)的結(jié)構(gòu)。從需求的角度,教育大數(shù)據(jù)的應(yīng)用可以概括為五個層次,即學習、教學、研究、管理與政策。學習層與教學層需求著眼于適應(yīng)性學習;研究層需求著眼于發(fā)現(xiàn)教育教學規(guī)律;管理層需求著眼于精細管理和科學決策;政策層需求來自獲得機制設(shè)計依據(jù),如圖3所示。
圖3 教育大數(shù)據(jù)的應(yīng)用
針對不同層次的需求,教育大數(shù)據(jù)應(yīng)用形成了各種產(chǎn)品和服務(wù)。從適應(yīng)性教學到動態(tài)跟蹤測評,從管理模型構(gòu)建到數(shù)據(jù)共享門戶,各種類型的應(yīng)用勾勒出了大數(shù)據(jù)影響教育領(lǐng)域的整體圖景。
我們不妨通過國際范圍內(nèi)典型的技術(shù)、產(chǎn)品和服務(wù),從適應(yīng)性教學、教育規(guī)律發(fā)現(xiàn)和精準管理支持三個方面,對有較大影響的教育大數(shù)據(jù)國際應(yīng)用進行分析,以期對我國教育大數(shù)據(jù)發(fā)展應(yīng)用提供借鑒。
(一)適應(yīng)性教學支持
適應(yīng)性教與學是教學的最優(yōu)化狀態(tài)。適應(yīng)性教學中的內(nèi)容、方法和過程都可以根據(jù)學習者的狀況來進行定制,讓每個學習者都有可能獲得適合自己的最大程度的發(fā)展。適應(yīng)性教學的實現(xiàn),需要基于學習者的個體特征和學習狀況的全面分析。大數(shù)據(jù)為追蹤和整合這些數(shù)據(jù),并對學生進行個性化支持提供了可能,如圖4所示。
圖4 適應(yīng)性教學的構(gòu)成
最為常見的適應(yīng)性教學系統(tǒng)來自在線學習領(lǐng)域。在各種學習管理系統(tǒng)和在線學習平臺中,學習者的學習過程能夠得到完整記錄。學習過程的記錄結(jié)合人口學和學習風格等學習者
特征數(shù)據(jù),可以清晰地表征學習者的學習路徑和學習者
特征,在有效記錄學習過程、綜合評價學習狀況的基礎(chǔ)上,進行診斷和推薦,開展有針對性的教學。
適應(yīng)性學習支持幾乎已經(jīng)成了在線學習的“標配”,在每一個商業(yè)在線學習平臺中,都有不同程度的適應(yīng)性。內(nèi)容推薦是適應(yīng)性的一種主要形式。然而,真正有效的適應(yīng)性教學系統(tǒng)需要整合三個系統(tǒng),即知識系統(tǒng)、行為系統(tǒng)和
特征系統(tǒng)。通過知識系統(tǒng)來描繪知識體系;通過行為系統(tǒng)來記錄學習、練習和反饋過程;通過
特征系統(tǒng)去分析學生的個體
特征和學習特質(zhì)。
當前,最具代表意義的適應(yīng)性學習系統(tǒng)當屬Knewton和可汗學院(Kehan
Academy)。此類適應(yīng)性學習系統(tǒng)重點支持了學生的學。學習系統(tǒng)試圖扮演教師的角色,對學生的學習進行自動化記錄、診斷和干預(yù)。適應(yīng)性學習的另一個層面是對教師教的支持。應(yīng)當看到,目前的學習系統(tǒng)還存在諸多局限,在MOOCs發(fā)展的初期,教師是否會被在線課堂所替代曾經(jīng)成為一個引人矚目的話題。然而,教師作為教育過程中的關(guān)鍵角色,不可能在短時間消失,而是會借助技術(shù)實現(xiàn)專業(yè)水平提升和角色轉(zhuǎn)變。大數(shù)據(jù)將成為教師教學的強大助手,幫助教師更好地發(fā)揮自身作用,更好地促進學生的學習。
在大數(shù)據(jù)技術(shù)支持下,教師可以根據(jù)自身的需求對學生的學習進行監(jiān)測,并通過自己設(shè)定的標準,對學生進行自動化或半自動化的評價。在數(shù)據(jù)的支持下,教師可以結(jié)合自身的教學經(jīng)驗對學生進行診斷和干預(yù)。在教師的訓練下,大數(shù)據(jù)工具將對教師的教提供更有力的支持。大數(shù)據(jù)工具將成為教師最好的幫手,而不是競爭者。
以Masteryconnect為例,Masteryconnect對教師的教提供了全面的數(shù)據(jù)化支持,它從教師的日常工作出發(fā),提供了數(shù)據(jù)采集、分析、呈現(xiàn)和基于數(shù)據(jù)的協(xié)作支持。教師可以在其支持下采集各種教學數(shù)據(jù),包括課堂觀察數(shù)據(jù)、答題卡數(shù)據(jù)、量表數(shù)據(jù)和在線測試數(shù)據(jù)。在采集數(shù)據(jù)之后,Masteryconnect可以進行自動化分析和可視化呈現(xiàn)。分析的結(jié)果可以通過該系統(tǒng)分享給其他教師,教師可以在數(shù)據(jù)的基礎(chǔ)上進行交流和協(xié)作。Masteryconnect為各種形成性評價提供了全面的支持,教師可以自行建立教學內(nèi)容的結(jié)構(gòu),并為各個模塊和知識點設(shè)計問卷、練習、試卷等各種測評方式。測評可以發(fā)布到PC和移動設(shè)備,學生可以選擇自己喜歡的方式完成測評。同時,測評結(jié)果可以形成定制報告,并發(fā)送給家長[22]。
對教與學的支持是大數(shù)據(jù)在適應(yīng)性學習中應(yīng)用的兩個側(cè)面?;跀?shù)據(jù),學生的學習狀態(tài)得以完整記錄,學習系統(tǒng)可以推送定制化內(nèi)容,教師可以開展更具針對性的教學??梢?,數(shù)據(jù)正在改變著線上和線下的教學過程。
(二)教育規(guī)律發(fā)現(xiàn)
教育研究是一項復雜的系統(tǒng)性研究。長期以來,小樣本量、個案研究對教育規(guī)律探索起到了重要作用。而教育大數(shù)據(jù)的引入,大大拓展了教育規(guī)律探索的視角。圖靈獎得主吉姆·格雷在《第四范式:數(shù)據(jù)密集型科學發(fā)現(xiàn)》一書中,提出了一種新型研究范式,即數(shù)據(jù)密集型研究,這將成為大數(shù)據(jù)時代教育研究的利器之一。
換言之,在大數(shù)據(jù)的驅(qū)動下,教育研究將出現(xiàn)不同的態(tài)勢,通過挖掘、分析教育大數(shù)據(jù),研究者可以量化學習過程,表征學習狀態(tài),發(fā)現(xiàn)影響因素,找到干預(yù)策略,從更深的層次揭示教育規(guī)律。誠然,規(guī)律發(fā)現(xiàn)并非易事。但可以肯定的是,在多來源、大體量數(shù)據(jù)的基礎(chǔ)上,通過技術(shù)手段進行數(shù)據(jù)匯集和共享,組織研究者進行群體協(xié)作,開展大量能夠進行標準化,具有對比意義的研究,最終更易發(fā)現(xiàn)真實的教育規(guī)律,如圖5所示。
這里可以通過對美國的三個大數(shù)據(jù)教育應(yīng)用的案例,即“預(yù)測分析報告項目(Predictive Analytics
Reporting,PAR)、數(shù)據(jù)商店(Data
Shop)和Data.gov”的介紹與分析,充分了解大
數(shù)據(jù)標準化研究和數(shù)據(jù)門戶對教育規(guī)律探索的意義。
美國的預(yù)測分析報告項目(PAR)對高校學生的學習狀況進行了全面分析,在學生輟學等重要風險的預(yù)測方面進行了探索。從2011年開始,該項目與美國的高校合作,建立了標準化數(shù)據(jù)收集框架,通過對學生學習數(shù)據(jù)的收集和分析,發(fā)現(xiàn)影響因子并構(gòu)建預(yù)測模型。該項目分析的原始數(shù)據(jù)包括學生人口學數(shù)據(jù)、教學管理數(shù)據(jù)、學習過程數(shù)據(jù)、成績數(shù)據(jù)和學生財務(wù)信息數(shù)據(jù)等。通過分析,該項目建立了通用分析標準和風險預(yù)測模型,并為各個學校提供了定制化風險因素模型。迄今,PAR已經(jīng)服務(wù)351家院校,分析了超過2000萬條課程數(shù)據(jù)。PAR也為學校分析學生學業(yè)表現(xiàn)提供了綜合視角,為防止學生輟學提供了有效手段[23]。
教育大數(shù)據(jù)研究需要大量匯集數(shù)據(jù),數(shù)據(jù)匯集需要大量研究者的群策群力,也需要行之有效的組織機制。匹茲堡大學學習科學中心(Pittsburgh
Science of Learning Center)的數(shù)據(jù)商店(Data
Shop),是美國自然科學基金支持建立的學習科學數(shù)據(jù)庫。經(jīng)過十多年的建設(shè),已經(jīng)成為全球最大的學習數(shù)據(jù)分享社區(qū)[24]。數(shù)據(jù)商店具有數(shù)據(jù)存儲和數(shù)據(jù)分析兩大類功能:一方面,它為全球?qū)W習科學研究者提供安全的數(shù)據(jù)存儲與共享工具;另一方面,它提供了數(shù)據(jù)分析工具和調(diào)用接口,便于分析應(yīng)用。數(shù)據(jù)商店中的數(shù)據(jù),分為公開數(shù)據(jù)和私有數(shù)據(jù),研究者可以根據(jù)需要選擇自己的數(shù)據(jù)是否要公開。數(shù)據(jù)商店中的數(shù)據(jù),包括教學軟件應(yīng)用數(shù)據(jù)、在線課程數(shù)據(jù)、智能教學系統(tǒng)(Intelligent
Tutoring
Systems)、虛擬實驗室數(shù)據(jù)、協(xié)作學習系統(tǒng)數(shù)據(jù)等。在數(shù)據(jù)匯集和分享功能的基礎(chǔ)上,數(shù)據(jù)商店提供了豐富的數(shù)據(jù)分析功能,支持探索性
統(tǒng)計分析和
數(shù)據(jù)挖掘,提供Web
Service支持遠程調(diào)用,以及
R語言、Excel等工具的接口。
美國教育部在教育研究與實踐數(shù)據(jù)匯集方面開展了大量工作,匯集了大量數(shù)據(jù)。截至2016年5月,在其數(shù)據(jù)門戶Data.gov中,匯聚的數(shù)據(jù)包含了325個大型數(shù)據(jù)集。數(shù)據(jù)包含范圍很廣,涉及人口統(tǒng)計、學習成績、貸款情況、校園安全等情況。Data.gov針對各類數(shù)據(jù)提供了多種數(shù)據(jù)格式,同時,提供了在線數(shù)據(jù)分析功能,它可以實現(xiàn)靈活便捷的在線
數(shù)據(jù)可視化。同時,Data.gov還為每個數(shù)據(jù)集提供了API,便于外部調(diào)用與分析。
由此可見,大數(shù)據(jù)分析對于教育研究及規(guī)律的發(fā)現(xiàn)意義重大。上述三個案例——預(yù)測分析報告項目、數(shù)據(jù)商店和Data.gov,對于我們利用大數(shù)據(jù)研究教育現(xiàn)象、發(fā)現(xiàn)與探索教育規(guī)律,有著重要的借鑒意義。因為規(guī)律的發(fā)現(xiàn),需要針對特定研究主題進行長期研究,需要大量標準化數(shù)據(jù)支持,需要對基于數(shù)據(jù)的研究與協(xié)作作廣泛支持。對于重要的教育研究主題,設(shè)定數(shù)據(jù)標準,進行長期縱向跟蹤和廣泛橫向比較研究,是探索教育規(guī)律的有效途徑。同時,還需要建立更加通暢的數(shù)據(jù)分享渠道,通過開放,最大化實現(xiàn)數(shù)據(jù)的應(yīng)用價值,以便為研究提供更加廣泛的支持。
(三)精準管理支持
在學校和教育機構(gòu)中,管理者時常面對無法及時掌握教學與管理綜合狀況的困境。這也導致了教育管理常常是粗放的、由直覺驅(qū)動的現(xiàn)狀。數(shù)據(jù)對于學校和教育機構(gòu)的精準管理和科學決策,可以起到重要的支持、調(diào)節(jié)作用?;跀?shù)據(jù)的管理,需要通過匯集各類管理與教學數(shù)據(jù),構(gòu)建多維模型。以Learnsprout、Calarity、Altschool等為代表的數(shù)據(jù)化管理應(yīng)用,體現(xiàn)了數(shù)據(jù)建模對于精準管理的重要支撐作用,如圖6所示。
圖6 數(shù)據(jù)支持下管理模型構(gòu)建
Learnsprout能夠整合學生信息系統(tǒng)和學習管理系統(tǒng)的數(shù)據(jù),對學生日常表現(xiàn)進行監(jiān)測,通過構(gòu)建模型對學生綜合狀況進行分析,并對管理和教學提出建議。例如,Learnsprout能夠?qū)Ω咧袑W生進入大學的準備情況等進行評價,對存在問題的學生進行早期預(yù)警,提出教學干預(yù)建議,并評估干預(yù)效果。Learnsprout不僅提供了自動化分析,還建立了有教育專家和數(shù)據(jù)專家構(gòu)成的團隊對數(shù)據(jù)進行深入挖掘,并形成分析報告。Learnsprout已經(jīng)在美國42個州、200多個學區(qū)的2500多所學校中得以廣泛應(yīng)用。該公司于2016年1月被蘋果公司收購,這也從一個側(cè)面說明了市場對其應(yīng)用效果的認可。
Calarity是通過構(gòu)建模型提供管理支持的另一個典型案例。Calarity旨在評估學校應(yīng)用信息化技術(shù)促進教學的狀況,并提出改進建議。它針對學校師生的技術(shù)應(yīng)用情況,采集了280個數(shù)據(jù)點,建立82個變量,形成21個指標,進而聚合成了4個維度,分別為課堂學習、技術(shù)應(yīng)用、信息化技能和信息化環(huán)境[25]。在模型化數(shù)據(jù)分析的基礎(chǔ)上,Calarity對存在的問題進行了分析和診斷,并提出了解決方案建議。
Altschool是學校層次上進行整體性數(shù)據(jù)采集、分析與應(yīng)用的代表。這所由前谷歌工程師Max
Ventilla創(chuàng)辦的學校,將教育教學和工程化思維密切結(jié)合,將提供個性化的教育作為辦學宗旨。在教育教學過程中采用全方位數(shù)據(jù)采集和分析,成為了這所學校提供適應(yīng)性教與學的重要依據(jù)和支撐。Altschool構(gòu)建了獨特的信息化基礎(chǔ)設(shè)施進行數(shù)據(jù)采集,它為教室設(shè)計的Alt
Video系統(tǒng),通過各種傳感器、攝像頭和麥克風采集學生行為數(shù)據(jù),這些數(shù)據(jù)每天都將被分析,用來改進教學過程和教學系統(tǒng)。Altschool還開發(fā)了Stream等教學系統(tǒng)和移動應(yīng)用,在支持教學過程的同時,其基于數(shù)據(jù)開展教學研究,并通過研究結(jié)果支持教學和管理。不同于傳統(tǒng)教育研究,Altschool的研究周期非常短,教學設(shè)計更新以周為單位,教學管理調(diào)整速度極快??焖俚墓こ袒季S、系統(tǒng)化信息技術(shù)環(huán)境支持、完整的數(shù)據(jù)采集與分析,構(gòu)成了Altschool在精準教學管理方面的整體解決方案。
可見,通過系統(tǒng)化數(shù)據(jù)采集,采用科學方法建立的數(shù)據(jù)模型,可以幫助教育管理者對學校和機構(gòu)的管理狀況進行持續(xù)動態(tài)監(jiān)控和綜合性評價。在數(shù)據(jù)支持下,管理者能夠更容易地發(fā)現(xiàn)管理和教學問題,設(shè)計可能的解決方案,并追蹤問題解決的成效。
四、教育大數(shù)據(jù)所面臨的挑戰(zhàn)
教育大數(shù)據(jù)領(lǐng)域方興未艾,既具有巨大的發(fā)展?jié)摿?,又面臨著諸多的挑戰(zhàn)。我們認為,這些挑戰(zhàn)包括數(shù)據(jù)標準、數(shù)據(jù)采集、模型構(gòu)建、產(chǎn)品服務(wù)和開放共享和隱私保護等方面,具體如圖7所示。
圖7 教育大數(shù)據(jù)應(yīng)用所面對的挑戰(zhàn)
(一)數(shù)據(jù)標準有待完善
大數(shù)據(jù)分析需要多來源、多類型數(shù)據(jù)的匯集,數(shù)據(jù)匯集需要建立統(tǒng)一標準與規(guī)范。教育部于2012年發(fā)布了《教育管理信息教育管理基礎(chǔ)代碼》等七個教育信息化行業(yè)標準,對教育管理、行政管理、教育統(tǒng)計、中小學、中職學校和高等學校管理的信息進行了規(guī)范。這一規(guī)范,雖然對統(tǒng)一教育管理信息有著重要意義。然而,教學環(huán)境、教學過程相關(guān)數(shù)據(jù)標準尚存大量空白。同時,近年來在線教育蓬勃發(fā)展,其數(shù)據(jù)標準也尚未建立。上述標準的缺失,成為了教育大數(shù)據(jù)有效應(yīng)用的瓶頸。
(二)數(shù)據(jù)采集覆蓋面窄
“十二五”期間,我國教育管理公共服務(wù)平臺基本建成,教育管理數(shù)據(jù)的收集具備了較好的條件。但其他教育教學數(shù)據(jù),特別是教學過程數(shù)據(jù)的采集,尚存在較大不足?,F(xiàn)有在線學習平臺在設(shè)計上,往往并未考慮數(shù)據(jù)分析的需要,對教與學過程的記錄不夠完整,對數(shù)據(jù)的分析應(yīng)用造成了困難。近年來,各高校和部分中小學開始進行智慧校園建設(shè),傳感器、Wifi網(wǎng)絡(luò)、移動設(shè)備等技術(shù)手段,為更全面的數(shù)據(jù)采集提供了一些條件。但在現(xiàn)有智慧校園建設(shè)中,對數(shù)據(jù)應(yīng)用尚缺乏整體設(shè)計,對數(shù)據(jù)采集的支持還遠遠不夠。
(三)模型構(gòu)建專業(yè)性不足
數(shù)據(jù)模型是對教學與管理進行有效監(jiān)測、評價、診斷和預(yù)測的核心支持。從教學的適應(yīng)性到管理決策支持,都需要通過科學的模型來支撐。但在現(xiàn)階段模型構(gòu)建過程中,教育大數(shù)據(jù)模型構(gòu)建的專業(yè)化水平明顯不足。一方面,教育研究成果沒有得到很好地應(yīng)用,教育領(lǐng)域?qū)<抑R應(yīng)用明顯不足;另一方面,前沿數(shù)據(jù)分析方法與技術(shù)的應(yīng)用不足,未能有效借助通用大數(shù)據(jù)技術(shù)的力量。
(四)產(chǎn)品服務(wù)單一
在我國教育領(lǐng)域中,以網(wǎng)龍、科大訊飛、猿題庫、優(yōu)答、一起作業(yè)、學堂在線為代表的企業(yè),都開始對教育數(shù)據(jù)的分析與應(yīng)用展開探索。但總體而言,目前,我國教育大數(shù)據(jù)相關(guān)應(yīng)用主要聚焦于適應(yīng)性教學,題庫類產(chǎn)品居多,缺乏管理類的應(yīng)用,對于教學決策的支持不足。同時,教育數(shù)據(jù)分析應(yīng)用在功能上較為單一,所采用的分析方法也有一定局限,
統(tǒng)計分析仍占有很大的比重,缺乏高水平產(chǎn)品與服務(wù)。
(五)開放共享尚未形成
教育大數(shù)據(jù)的重要價值,首先來自于其數(shù)據(jù)的大規(guī)模和全面性,規(guī)模的形成需要廣泛的數(shù)據(jù)共享與開放。當前,行之有效的數(shù)據(jù)共享開放和應(yīng)用規(guī)則尚未建立,所以,還需要建立有效的資源共享機制,通過多種途徑匯聚教學,研究和管理數(shù)據(jù),擴大數(shù)據(jù)的規(guī)模,才能形成教育大數(shù)據(jù)的獨特優(yōu)勢。
(六)隱私保護有待完善
教育大數(shù)據(jù)涉及龐大規(guī)模的受教育者與教育者群體。對于這些人群,特別是對于大量的未成年學生而言,隱私保護至關(guān)重要。所以,應(yīng)當從法律上明確、規(guī)范公開數(shù)據(jù)與私有數(shù)據(jù)的邊界,有效的保護隱私數(shù)據(jù)。在來源清晰、責權(quán)明確、應(yīng)用有序的前提下,才能有效地開展教育大數(shù)據(jù)研究與應(yīng)用。
我國教育大數(shù)據(jù)領(lǐng)域正處于起步階段。教育大數(shù)據(jù)研究與應(yīng)用具有鮮明的特點,其發(fā)展需要將大數(shù)據(jù)技術(shù)與教育領(lǐng)域進行深度融合。在“互聯(lián)網(wǎng)+”時代,為了更好地應(yīng)對教育大數(shù)據(jù)所面臨的一系列挑戰(zhàn),我們認為,目前迫切需要在體制與機制上,多方協(xié)同,各盡其力,以形成一種合力
圖8 教育大數(shù)據(jù)發(fā)展需要多方合力
具體來說,教育主管部門需要推動教育大數(shù)據(jù)方面的相關(guān)法律、法規(guī)的制定,劃定邊界,明晰責權(quán),建立更加全面的教育數(shù)據(jù)標準,為國家層面的大規(guī)模數(shù)據(jù)共享和分析奠定基礎(chǔ)。以學校為代表的教育機構(gòu),需要提升數(shù)據(jù)驅(qū)動教學與管理的意識,構(gòu)建綜合數(shù)據(jù)采集環(huán)境,并建立數(shù)據(jù)管理與應(yīng)用機制。一些研究機構(gòu)需要將教育科學與數(shù)據(jù)科學緊密結(jié)合,開展多學科協(xié)同研究,并注重研究成果的轉(zhuǎn)化。公司、企業(yè)則需要從教學與管理的整體流程出發(fā),設(shè)計與開發(fā)多元化產(chǎn)品,并根據(jù)教育需求提供靈活可擴展的定制化服務(wù),從而共同促進教育
大數(shù)據(jù)的健康發(fā)展,更好地服務(wù)于教育事業(yè)。