
大數據存儲方案為教育信息化提速_數據分析師考試
在大數據時代,大數據在教育領域有了越來越廣泛的應用,學校擁有可用的、高質量的海量數據逐漸成為現(xiàn)實,但如何保護這些海量、非結構化的用戶數據,并時時進行信息挖掘,給未來教育帶來更大的可能,則對教育研究者的想象力提出了挑戰(zhàn)。正如上海易班發(fā)展中心主任、易班網CEO朱明倫所言:“易班的海量數據需要安全可靠的存儲,幫我們解決數據存儲問題,同時在數據安全性、容災備份給與更多幫助。
大數據需求凸現(xiàn)
易班全稱“易班學生網絡互動社區(qū)”,其前身是“上海大學生在線”,是中國第一家面向大學生的實名互動平臺。該網站不僅提供BBS、SNS、博客、微博、手機互聯(lián)等多種新型互聯(lián)網應用,同時根據高校的特點,研發(fā)了話題、日程表等基于班級的特色應用,交流大量的優(yōu)質教育資源。
作為上海市高校師生互動交流的主要平臺,基本覆蓋了上海的全部大學生,60余所高校里,現(xiàn)有55所學校基本上100%進易班,用戶量已達50多萬,日均訪問IP超過25萬,日均點擊率達到80萬次。目前用戶數據量已經達到30TB,并且每天以GB數量級激增。龐大的數據已經造成現(xiàn)有硬件存儲設備嚴重欠負載狀態(tài),就目前的負載情況來看,易班僅能為二萬左右的新用戶提供服務。易班數據來源復雜而且擁有大量非結構化數據,整體數據管理工作面臨很大壓力,因此需要一個專業(yè)的規(guī)劃師來幫助建設虛擬數據中心,以解燃眉之急。
不久前,易班采用了EMC Celerra NS-480 存儲系統(tǒng)作為主存儲,構建第一個虛擬化數據中心,EMC方案的應用很好解決了原有盤柜存儲的若干問題,主要表現(xiàn)在改善系統(tǒng)擴容,對磁盤運行情況實現(xiàn)智能預警,提升響應速度,節(jié)約成本等方面。很值得眾多方案商借鑒。
實效:顯著改善數據管理水平
EMC的Isilon NL 系列為第二數據中心提供了非結構化數據的高性能承載,為將來的無縫擴容提供了保障。Isilon能自動根據存儲對象擴容,透明方便。整個存儲空間有較大的平行擴展能力,使客戶不再擔心空間容量問題,是諸如易班這類網站用于存儲海量非結構化數據的理想選擇。
EMC統(tǒng)一存儲把讀寫頻繁的數據放在閃存里,讀寫不頻繁的依次往下排列,實現(xiàn)了自動化、智能化的數據存儲和管理,改善了以前盤柜形式單一、難以整合的情況。同時,在價格上比全部使用盤柜閃存更低,讀寫速率也比單獨使用SAS或SATA更快,達到了真正的經濟高效。相比于原有的盤柜來說,相同一個網頁頁面處理時間為60毫秒,現(xiàn)在使用EMC統(tǒng)一存儲系統(tǒng)后,只需40多毫秒就可以實現(xiàn),速率提升至少20%以上,整體上比機架加盤柜形式處理效率更高。
之前,由于易班網站對磁盤的讀寫頻率很高,所以碰到磁盤故障的概率較高,如未及時處理,將面臨數據丟失的風險。之前易班都通過人工定期檢查,不僅費時費力,還不能及時發(fā)現(xiàn)問題。EMC解決方案有完善的管理軟件,還有一個預警機制,一旦磁盤出現(xiàn)故障,可以實時發(fā)現(xiàn)并自動報警。同時,EMC工程師經驗豐富,在幾次幫助易班系統(tǒng)升級時表現(xiàn)都很專業(yè),降低了數據丟失以及不完整的風險,保證數據在升級過程中平穩(wěn)安全。
使用EMC解決方案后,易班數據中心不再像之前一樣配備較多人員,還經常出現(xiàn)手忙腳亂的局面了。現(xiàn)在雖然數據量增加了,但數據中心運維部仍然只有四個人,負責管理網絡、服務器、存儲和應用軟件。存儲方面節(jié)省了大量人力。
EMC方案可以對關鍵的數據集(如 MS SQL 數據庫)提供容災保護,實現(xiàn)起來并不復雜。EMC VNX5500可以提供超過30TB的容量,結合RecoverPoint軟件,有效實現(xiàn)了兩個數據中心內的連續(xù)數據保護,如下圖,在VNX5500出現(xiàn)問題時,自動連接到另一數據中心的Celerra NS-480,保證了網站穩(wěn)定運行。
圖1 易班數據中心部署架構示意圖
方案保障數據高效運轉
易班對于數據存儲的總體要求非常高,但這些需求對EMC來說都不是難事兒,在易班截至目前三期的項目中,EMC先后提供了Celerra NS-480 + VNX5500 +RecoverPoint+Isilon一整套精英利器,這些武器功能非凡,整合在一起,可以完美解決易班數據管理問題。
EMC Celerra NS-480 統(tǒng)一存儲系統(tǒng)最先出場。Celerra為多協(xié)議環(huán)境提供了高級故障切換和全自動存儲分層功能。最多可擴展到480 個磁盤,超越直連存儲限制。使用 EMC Unisphere管理軟件簡化了常見管理任務,通過文件系統(tǒng)重復數據消除、FAST 緩存、虛擬資源調配和自動化卷管理實現(xiàn)更高的效率。
VNX5500統(tǒng)一存儲是EMC虛擬應用程序優(yōu)化的高性能統(tǒng)一存儲平臺,存儲容量超過30TB,其自我優(yōu)化的存儲分層和以應用程序為中心的復制能力,可以優(yōu)化閃存、SAS 和近線 SAS 驅動器中的數據。它的應用無疑是為易班更好駕馭這些大數據,提升混合工作負載的運行速度,極大提升性能。
易班現(xiàn)在除了數據庫服務器外,其余都將運行在虛擬化軟件。現(xiàn)在物理機有8個刀片,虛擬機數量有30多臺。在項目三期里預計將增加十幾塊刀片,虛擬機的數量達到300多個。EMC RecoverPoint可利用多個恢復點將應用程序即時恢復到特定時間點,從而提供連續(xù)數據保護,這一點可以很好滿足客戶對業(yè)務連續(xù)性、數據安全性方面的高要求。
橫向擴展存儲專家EMC Isilon具備極高的存儲處理通量,部署簡單而又具有高擴展性。它能夠加速用戶對數字內容和非結構化數據的存取,極大地減少存儲系統(tǒng)的復雜性,降低存儲成本,同時可線性擴展其性能和容量,是易班用于存儲海量非結構化數據的優(yōu)先選擇。
另外,由 EMC、Cisco、VMware 三方聯(lián)盟所提供的最優(yōu)化IT 基礎設施VCE構架參考方案,VCE構架吞吐量比盤柜的更大,服務器和陣列之間的交換速率能達4GB/s,這樣的處理速度,是易班之前無法達到的。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數的日期轉換:從基礎用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數據處理中,日期格式轉換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數據庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數據分析師:表結構數據 “獲取 - 加工 - 使用” 全流程的賦能者 表結構數據(如數據庫表、Excel 表、CSV 文件)是企業(yè)數字 ...
2025-09-18DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統(tǒng)計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統(tǒng)落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協(xié)同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數據解讀到決策支撐的價值導向 統(tǒng)計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10