
大數(shù)據(jù)時(shí)代 PB級(jí)數(shù)據(jù)怎么管
如何理解PB級(jí)數(shù)據(jù)?說(shuō)到這個(gè)數(shù)據(jù)量級(jí),人們首先會(huì)聯(lián)想到CADAL項(xiàng)目(大學(xué)數(shù)字圖書(shū)館國(guó)際合作計(jì)劃),該項(xiàng)目可以說(shuō)是開(kāi)啟了大數(shù)據(jù)時(shí)代PB級(jí)數(shù)據(jù)管理的一個(gè)典型案例。他的成功運(yùn)行搭建為眾多方案商提供了借鑒。
PB級(jí)數(shù)據(jù)挑戰(zhàn)多
據(jù)大學(xué)數(shù)字圖書(shū)館國(guó)際合作計(jì)劃管理中心副主任黃晨介紹:“CADAL項(xiàng)目面臨的三個(gè)大數(shù)據(jù)應(yīng)用挑戰(zhàn)是:首先是 PB級(jí)數(shù)據(jù)需要長(zhǎng)期保留;其次,需要24小時(shí)不間斷為高校師生服務(wù);最后,多重業(yè)務(wù)需要共享資源。為此,我們?cè)诮ㄔO(shè)中,從系統(tǒng)穩(wěn)定性、易用性、分級(jí)存儲(chǔ)/信息生命周期管理、硬件升級(jí)更新與業(yè)務(wù)連續(xù)性、可用性、性能六個(gè)方面去考慮。
事實(shí)上,CADAL在開(kāi)展二期項(xiàng)目的過(guò)程中,就明顯感覺(jué)到了大數(shù)據(jù)上述的三大應(yīng)用挑戰(zhàn)。經(jīng)過(guò)一期和二期工程建設(shè),CADAL項(xiàng)目已經(jīng)完成250多萬(wàn)冊(cè)古籍和相關(guān)音視頻資料的數(shù)字化,面向全國(guó)2000所高校開(kāi)展服務(wù),部分資源向公眾開(kāi)放。250多萬(wàn)冊(cè)古籍和相關(guān)音視頻資料加在一起,數(shù)據(jù)量已經(jīng)達(dá)到600TB。三期工程將繼續(xù)擴(kuò)大資源建設(shè),數(shù)據(jù)量將很快達(dá)到PB級(jí)。
為此,信息基礎(chǔ)架構(gòu)平臺(tái)需要能夠動(dòng)態(tài)地支持多重工作流,滿(mǎn)足不同的性能要求、不同的容量要求,并且隨時(shí)能夠改變;需要有效地管理共享資源,存儲(chǔ)資源按需分配,同時(shí)通過(guò)配額管理功能,以提高利用率。
選擇方案的關(guān)鍵點(diǎn)
據(jù)了解,250萬(wàn)冊(cè)的紙質(zhì)圖書(shū),需要1棟15層的大樓才能容納。如圖2所示。而采用現(xiàn)代的技術(shù)手段,只需要一個(gè)機(jī)柜,就足夠應(yīng)對(duì)250萬(wàn)冊(cè)甚至更多圖書(shū)的數(shù)字化影像。圖所3所示。
圖2某省圖書(shū)館介紹,建筑面積18073平方米,書(shū)庫(kù)主體15層,可容納250萬(wàn)冊(cè)藏書(shū)
圖3 這樣一組EMC Isilon機(jī)柜可以保存幾千萬(wàn)冊(cè)數(shù)字化圖書(shū)
面對(duì)上述挑戰(zhàn),據(jù)CADAL項(xiàng)目管理中心數(shù)據(jù)主管劉濤老師介紹說(shuō),CADAL項(xiàng)目管理中心從系統(tǒng)穩(wěn)定性、易用性、分級(jí)存儲(chǔ)/信息生命周期管理、硬件升級(jí)更新與業(yè)務(wù)連續(xù)性、可用性、性能六個(gè)方面進(jìn)行綜合考察。最終選擇了EMC Isilon,總?cè)萘?PB的EMC Isilon大數(shù)據(jù)存儲(chǔ)系統(tǒng)在CADAL項(xiàng)目管理中心部署完成,投入使用。
方案核心優(yōu)勢(shì)
這一方案的核心優(yōu)勢(shì)主要表現(xiàn)在兩個(gè)方面:
一是支持文件、FTP等多種靈活的訪(fǎng)問(wèn)方式,簡(jiǎn)化了操作,提高了效率。
CADAL圖書(shū)數(shù)字化的大致工作流程是:共建高校申報(bào)圖書(shū)資源à項(xiàng)目管理委員會(huì)審定à共建高校負(fù)責(zé)數(shù)字化處理并將數(shù)字圖書(shū)提交給管理中心à管理中心將數(shù)字圖書(shū)發(fā)布到前端存儲(chǔ)對(duì)外提供服務(wù),同時(shí)備份多份份到后端存儲(chǔ)。
劉老師經(jīng)常要做的一件事情是:通過(guò)工作機(jī)將共建高校提交的數(shù)字圖書(shū)從臨時(shí)存儲(chǔ)復(fù)制到前端和后臺(tái)存儲(chǔ)。由于各臺(tái)服務(wù)器連接不同的光纖存儲(chǔ),需要把存儲(chǔ)設(shè)備掛接到服務(wù)器才能操作,并且各服務(wù)器還應(yīng)用不同的操作系統(tǒng),數(shù)據(jù)需要走“臨時(shí)存儲(chǔ)à工作機(jī)服務(wù)器à服務(wù)器à后端存儲(chǔ)”的路徑。換成Isilon之后,數(shù)據(jù)只需要走“臨時(shí)存儲(chǔ)à前端服務(wù)器à后端Isilon存儲(chǔ)”的路徑,由于Isilon的吞吐量很大,并且沒(méi)有文件系統(tǒng)和LUN管理的兼容問(wèn)題,可以同時(shí)從多個(gè)臨時(shí)存儲(chǔ)往后端Isilon存儲(chǔ)保存數(shù)據(jù),且沒(méi)有額外的速度損失,效率大大提高。以前,從共建高校接收數(shù)字圖書(shū)較多時(shí),后端的發(fā)布或備份服務(wù)器上的數(shù)據(jù)流量會(huì)比較大,會(huì)影響其它數(shù)據(jù)訪(fǎng)問(wèn)或應(yīng)用,發(fā)布和備份會(huì)出現(xiàn)瓶頸;如果大量使用光纖存儲(chǔ),服務(wù)器端的成本也會(huì)增加。采用Isilon之后,硬件上帶寬提高了,系統(tǒng)上跳過(guò)了操作系統(tǒng)層面的處理,這種現(xiàn)象有較大改觀。
二是支持磁盤(pán)分級(jí)存儲(chǔ)、節(jié)點(diǎn)分級(jí)存儲(chǔ)和SSD固態(tài)硬盤(pán)加速,既保證了大容量,也保證了高性能。
CADAL的做法是,將活躍的數(shù)據(jù)保存在配有固態(tài)硬盤(pán)的高速I(mǎi)silon節(jié)點(diǎn)上,其它數(shù)據(jù)保存在普通Isilon節(jié)點(diǎn)上。不同高校圖書(shū)館提供的數(shù)字圖書(shū)分區(qū)保存,存儲(chǔ)空間按需分配,并實(shí)行配額管理,提高存儲(chǔ)利用率。
PB知識(shí)鏈接:
TechTarget自己的百科網(wǎng)站W(wǎng)hatis有關(guān)于PB大小的定義:“PB是數(shù)據(jù)存儲(chǔ)容量的單位,它等于2的50次方個(gè)字節(jié),或者在數(shù)值上大約等于1000個(gè)TB?!?/span>
那么一個(gè)TB呢?
“TB是一個(gè)計(jì)算機(jī)存儲(chǔ)容量的單位,它等于2的40次方,或者接近一萬(wàn)億個(gè)字節(jié)(即,一千千兆字節(jié))?!?/span>
未來(lái)學(xué)家Raymond Kurzweil他的論文中對(duì)PB的定義進(jìn)行延伸:人類(lèi)功能記憶的容量預(yù)計(jì)在1.25個(gè)TB。這意味著,800個(gè)人類(lèi)記憶才相當(dāng)于1個(gè)PB。
如果這樣還不夠清楚,那么Adfonic的CTO Wes Biggs給出了下面更直接的計(jì)算:
假設(shè)手機(jī)播放MP3的編碼速度為平均每分鐘1MB,而1首歌曲的平均時(shí)長(zhǎng)為4分鐘,那么1PB歌曲可以連續(xù)播放2000年。
如果智能手機(jī)相機(jī)拍攝相片的平均大小為3MB,打印照片的平均大小為8.5英寸,那么總共1PB的照片的并排排列長(zhǎng)度就達(dá)到48000英里——大約可以環(huán)繞地球2周。
1PB足夠存儲(chǔ)整個(gè)美國(guó)人口的DNA,而且還能再克隆2倍。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢(xún)效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話(huà)題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10