
大數(shù)據(jù)存儲(chǔ)方案為教育信息化提速_數(shù)據(jù)分析師考試
在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)在教育領(lǐng)域有了越來越廣泛的應(yīng)用,學(xué)校擁有可用的、高質(zhì)量的海量數(shù)據(jù)逐漸成為現(xiàn)實(shí),但如何保護(hù)這些海量、非結(jié)構(gòu)化的用戶數(shù)據(jù),并時(shí)時(shí)進(jìn)行信息挖掘,給未來教育帶來更大的可能,則對(duì)教育研究者的想象力提出了挑戰(zhàn)。正如上海易班發(fā)展中心主任、易班網(wǎng)CEO朱明倫所言:“易班的海量數(shù)據(jù)需要安全可靠的存儲(chǔ),幫我們解決數(shù)據(jù)存儲(chǔ)問題,同時(shí)在數(shù)據(jù)安全性、容災(zāi)備份給與更多幫助。
大數(shù)據(jù)需求凸現(xiàn)
易班全稱“易班學(xué)生網(wǎng)絡(luò)互動(dòng)社區(qū)”,其前身是“上海大學(xué)生在線”,是中國(guó)第一家面向大學(xué)生的實(shí)名互動(dòng)平臺(tái)。該網(wǎng)站不僅提供BBS、SNS、博客、微博、手機(jī)互聯(lián)等多種新型互聯(lián)網(wǎng)應(yīng)用,同時(shí)根據(jù)高校的特點(diǎn),研發(fā)了話題、日程表等基于班級(jí)的特色應(yīng)用,交流大量的優(yōu)質(zhì)教育資源。
作為上海市高校師生互動(dòng)交流的主要平臺(tái),基本覆蓋了上海的全部大學(xué)生,60余所高校里,現(xiàn)有55所學(xué)?;旧?00%進(jìn)易班,用戶量已達(dá)50多萬,日均訪問IP超過25萬,日均點(diǎn)擊率達(dá)到80萬次。目前用戶數(shù)據(jù)量已經(jīng)達(dá)到30TB,并且每天以GB數(shù)量級(jí)激增。龐大的數(shù)據(jù)已經(jīng)造成現(xiàn)有硬件存儲(chǔ)設(shè)備嚴(yán)重欠負(fù)載狀態(tài),就目前的負(fù)載情況來看,易班僅能為二萬左右的新用戶提供服務(wù)。易班數(shù)據(jù)來源復(fù)雜而且擁有大量非結(jié)構(gòu)化數(shù)據(jù),整體數(shù)據(jù)管理工作面臨很大壓力,因此需要一個(gè)專業(yè)的規(guī)劃師來幫助建設(shè)虛擬數(shù)據(jù)中心,以解燃眉之急。
不久前,易班采用了EMC Celerra NS-480 存儲(chǔ)系統(tǒng)作為主存儲(chǔ),構(gòu)建第一個(gè)虛擬化數(shù)據(jù)中心,EMC方案的應(yīng)用很好解決了原有盤柜存儲(chǔ)的若干問題,主要表現(xiàn)在改善系統(tǒng)擴(kuò)容,對(duì)磁盤運(yùn)行情況實(shí)現(xiàn)智能預(yù)警,提升響應(yīng)速度,節(jié)約成本等方面。很值得眾多方案商借鑒。
實(shí)效:顯著改善數(shù)據(jù)管理水平
EMC的Isilon NL 系列為第二數(shù)據(jù)中心提供了非結(jié)構(gòu)化數(shù)據(jù)的高性能承載,為將來的無縫擴(kuò)容提供了保障。Isilon能自動(dòng)根據(jù)存儲(chǔ)對(duì)象擴(kuò)容,透明方便。整個(gè)存儲(chǔ)空間有較大的平行擴(kuò)展能力,使客戶不再擔(dān)心空間容量問題,是諸如易班這類網(wǎng)站用于存儲(chǔ)海量非結(jié)構(gòu)化數(shù)據(jù)的理想選擇。
EMC統(tǒng)一存儲(chǔ)把讀寫頻繁的數(shù)據(jù)放在閃存里,讀寫不頻繁的依次往下排列,實(shí)現(xiàn)了自動(dòng)化、智能化的數(shù)據(jù)存儲(chǔ)和管理,改善了以前盤柜形式單一、難以整合的情況。同時(shí),在價(jià)格上比全部使用盤柜閃存更低,讀寫速率也比單獨(dú)使用SAS或SATA更快,達(dá)到了真正的經(jīng)濟(jì)高效。相比于原有的盤柜來說,相同一個(gè)網(wǎng)頁頁面處理時(shí)間為60毫秒,現(xiàn)在使用EMC統(tǒng)一存儲(chǔ)系統(tǒng)后,只需40多毫秒就可以實(shí)現(xiàn),速率提升至少20%以上,整體上比機(jī)架加盤柜形式處理效率更高。
之前,由于易班網(wǎng)站對(duì)磁盤的讀寫頻率很高,所以碰到磁盤故障的概率較高,如未及時(shí)處理,將面臨數(shù)據(jù)丟失的風(fēng)險(xiǎn)。之前易班都通過人工定期檢查,不僅費(fèi)時(shí)費(fèi)力,還不能及時(shí)發(fā)現(xiàn)問題。EMC解決方案有完善的管理軟件,還有一個(gè)預(yù)警機(jī)制,一旦磁盤出現(xiàn)故障,可以實(shí)時(shí)發(fā)現(xiàn)并自動(dòng)報(bào)警。同時(shí),EMC工程師經(jīng)驗(yàn)豐富,在幾次幫助易班系統(tǒng)升級(jí)時(shí)表現(xiàn)都很專業(yè),降低了數(shù)據(jù)丟失以及不完整的風(fēng)險(xiǎn),保證數(shù)據(jù)在升級(jí)過程中平穩(wěn)安全。
使用EMC解決方案后,易班數(shù)據(jù)中心不再像之前一樣配備較多人員,還經(jīng)常出現(xiàn)手忙腳亂的局面了。現(xiàn)在雖然數(shù)據(jù)量增加了,但數(shù)據(jù)中心運(yùn)維部仍然只有四個(gè)人,負(fù)責(zé)管理網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)和應(yīng)用軟件。存儲(chǔ)方面節(jié)省了大量人力。
EMC方案可以對(duì)關(guān)鍵的數(shù)據(jù)集(如 MS SQL 數(shù)據(jù)庫(kù))提供容災(zāi)保護(hù),實(shí)現(xiàn)起來并不復(fù)雜。EMC VNX5500可以提供超過30TB的容量,結(jié)合RecoverPoint軟件,有效實(shí)現(xiàn)了兩個(gè)數(shù)據(jù)中心內(nèi)的連續(xù)數(shù)據(jù)保護(hù),如下圖,在VNX5500出現(xiàn)問題時(shí),自動(dòng)連接到另一數(shù)據(jù)中心的Celerra NS-480,保證了網(wǎng)站穩(wěn)定運(yùn)行。
圖1 易班數(shù)據(jù)中心部署架構(gòu)示意圖
方案保障數(shù)據(jù)高效運(yùn)轉(zhuǎn)
易班對(duì)于數(shù)據(jù)存儲(chǔ)的總體要求非常高,但這些需求對(duì)EMC來說都不是難事兒,在易班截至目前三期的項(xiàng)目中,EMC先后提供了Celerra NS-480 + VNX5500 +RecoverPoint+Isilon一整套精英利器,這些武器功能非凡,整合在一起,可以完美解決易班數(shù)據(jù)管理問題。
EMC Celerra NS-480 統(tǒng)一存儲(chǔ)系統(tǒng)最先出場(chǎng)。Celerra為多協(xié)議環(huán)境提供了高級(jí)故障切換和全自動(dòng)存儲(chǔ)分層功能。最多可擴(kuò)展到480 個(gè)磁盤,超越直連存儲(chǔ)限制。使用 EMC Unisphere管理軟件簡(jiǎn)化了常見管理任務(wù),通過文件系統(tǒng)重復(fù)數(shù)據(jù)消除、FAST 緩存、虛擬資源調(diào)配和自動(dòng)化卷管理實(shí)現(xiàn)更高的效率。
VNX5500統(tǒng)一存儲(chǔ)是EMC虛擬應(yīng)用程序優(yōu)化的高性能統(tǒng)一存儲(chǔ)平臺(tái),存儲(chǔ)容量超過30TB,其自我優(yōu)化的存儲(chǔ)分層和以應(yīng)用程序?yàn)橹行牡膹?fù)制能力,可以優(yōu)化閃存、SAS 和近線 SAS 驅(qū)動(dòng)器中的數(shù)據(jù)。它的應(yīng)用無疑是為易班更好駕馭這些大數(shù)據(jù),提升混合工作負(fù)載的運(yùn)行速度,極大提升性能。
易班現(xiàn)在除了數(shù)據(jù)庫(kù)服務(wù)器外,其余都將運(yùn)行在虛擬化軟件?,F(xiàn)在物理機(jī)有8個(gè)刀片,虛擬機(jī)數(shù)量有30多臺(tái)。在項(xiàng)目三期里預(yù)計(jì)將增加十幾塊刀片,虛擬機(jī)的數(shù)量達(dá)到300多個(gè)。EMC RecoverPoint可利用多個(gè)恢復(fù)點(diǎn)將應(yīng)用程序即時(shí)恢復(fù)到特定時(shí)間點(diǎn),從而提供連續(xù)數(shù)據(jù)保護(hù),這一點(diǎn)可以很好滿足客戶對(duì)業(yè)務(wù)連續(xù)性、數(shù)據(jù)安全性方面的高要求。
橫向擴(kuò)展存儲(chǔ)專家EMC Isilon具備極高的存儲(chǔ)處理通量,部署簡(jiǎn)單而又具有高擴(kuò)展性。它能夠加速用戶對(duì)數(shù)字內(nèi)容和非結(jié)構(gòu)化數(shù)據(jù)的存取,極大地減少存儲(chǔ)系統(tǒng)的復(fù)雜性,降低存儲(chǔ)成本,同時(shí)可線性擴(kuò)展其性能和容量,是易班用于存儲(chǔ)海量非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)先選擇。
另外,由 EMC、Cisco、VMware 三方聯(lián)盟所提供的最優(yōu)化IT 基礎(chǔ)設(shè)施VCE構(gòu)架參考方案,VCE構(gòu)架吞吐量比盤柜的更大,服務(wù)器和陣列之間的交換速率能達(dá)4GB/s,這樣的處理速度,是易班之前無法達(dá)到的。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03