
作者 | 大數(shù)據(jù)
來(lái)源 | hzdashuju
微軟在聯(lián)機(jī)事務(wù)處理(OLTP)云基準(zhǔn)測(cè)試中實(shí)現(xiàn)每節(jié)點(diǎn)虛擬機(jī)數(shù)量提升36%,硬件成本下降30%;SAP HANA讓系統(tǒng)重啟從20分鐘縮短至90秒,性能提升13倍之多,實(shí)現(xiàn)每TB數(shù)據(jù)庫(kù)容量成本節(jié)約39%;百度在為Feed流服務(wù)提供高性能數(shù)據(jù)存取支撐時(shí)實(shí)現(xiàn)TCO的有效降低;亞信在其電信業(yè)務(wù)支持系統(tǒng)中在成本相當(dāng)?shù)那闆r下,實(shí)現(xiàn)查詢響應(yīng)下降35%……
為什么在數(shù)據(jù)爆炸性增長(zhǎng)的今天,微軟、SAP、百度、亞信們能夠?qū)崿F(xiàn)數(shù)據(jù)分析性能的提升以及總體擁有成本的大幅下降?
這一切還得先從數(shù)據(jù)分析的難題說(shuō)起。
01 數(shù)據(jù)分析的難題在哪里
如今,我們身處一個(gè)數(shù)據(jù)洪流的時(shí)代,并且數(shù)據(jù)增長(zhǎng)的腳步正在加快。過(guò)去,因?yàn)橐苿?dòng)互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)的快速發(fā)展,使得基于人的大量數(shù)據(jù)因此而產(chǎn)生;現(xiàn)在,隨著5G、物聯(lián)網(wǎng)的崛起,越來(lái)越多的設(shè)備開(kāi)始接入到網(wǎng)絡(luò)之中,并且開(kāi)始源源不斷的產(chǎn)生數(shù)據(jù)。
根據(jù)Strategy Analytics的《全球聯(lián)網(wǎng)和物聯(lián)網(wǎng)設(shè)備預(yù)測(cè)更新》報(bào)告顯示,2018年全球聯(lián)網(wǎng)設(shè)備數(shù)量達(dá)到220億,到2025年將會(huì)有386億臺(tái)聯(lián)網(wǎng)設(shè)備。
身處數(shù)字時(shí)代,面對(duì)海量數(shù)據(jù)如何挖掘其中的價(jià)值、洞悉趨勢(shì)變化,就成為幾乎所有企業(yè)/組織所期待的。但一個(gè)殘酷的事實(shí)卻是,大部分的企業(yè)/組織還只能分析極為一小部分的數(shù)據(jù)。就如IDC Global DataSPhere報(bào)告指出,全球只有不到2%的數(shù)據(jù)經(jīng)過(guò)了分析。數(shù)據(jù)分析技術(shù)還遠(yuǎn)未到普及的程度,數(shù)據(jù)處理與分析的效率則遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)產(chǎn)生的數(shù)據(jù)。
那么,當(dāng)前數(shù)據(jù)分析主要有哪些挑戰(zhàn)?
首先是數(shù)據(jù)分析的數(shù)據(jù)量正在越來(lái)越龐大,海量數(shù)據(jù)的產(chǎn)生將走向日?;?。以自動(dòng)駕駛為例,一輛自動(dòng)駕駛汽車一天收集的樣本就高達(dá)上百萬(wàn)張高清圖譜,其數(shù)據(jù)量高達(dá)3TB,并且需要不斷對(duì)這些海量數(shù)據(jù)進(jìn)行分析與學(xué)習(xí),進(jìn)而會(huì)產(chǎn)生出更多的數(shù)據(jù)。
未來(lái),隨著醫(yī)療、制造、航天、能源、交通等行業(yè)數(shù)字化程度越來(lái)越高,數(shù)據(jù)分析所面臨的壓力也會(huì)持續(xù)增大。
其次,數(shù)據(jù)分析對(duì)于實(shí)時(shí)性要求越來(lái)越高。雖然數(shù)據(jù)量增長(zhǎng)迅速,但是用戶對(duì)于數(shù)據(jù)分析實(shí)時(shí)性的要求一點(diǎn)都沒(méi)有下降,甚至希望數(shù)據(jù)分析能夠越快越好。比如運(yùn)營(yíng)商的數(shù)據(jù),種類多、體量大,一種話單每天的數(shù)據(jù)量就達(dá)到上百億條,如此大的實(shí)時(shí)數(shù)據(jù)流,也讓業(yè)務(wù)對(duì)數(shù)據(jù)分析處理的實(shí)時(shí)性提出了極高要求。
最后則是數(shù)據(jù)分析對(duì)于成本的挑戰(zhàn),由于數(shù)據(jù)分析需要處理的數(shù)據(jù)越來(lái)越多。實(shí)時(shí)性要求越來(lái)越快,使得數(shù)據(jù)分析所需要的硬件資源、人員投入也更多,隨之而來(lái)的就是整體擁有成本(TCO)的上升。
面對(duì)數(shù)據(jù)分析這些典型的挑戰(zhàn),到底使用哪些技術(shù),才可以讓數(shù)據(jù)分析和價(jià)值挖掘帶來(lái)更快的速度和更加合理的成本?大部分人認(rèn)為需要更快、核心更多、架構(gòu)更有的CPU,但是CPU速度越來(lái)越快的今天,存儲(chǔ)和網(wǎng)絡(luò)傳輸?shù)男阅芷鋵?shí)是目前最大的瓶頸所在,亟需通過(guò)新技術(shù)補(bǔ)上。
如何破解數(shù)據(jù)分析這些難題?英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存被認(rèn)為是一劑良方。這也是微軟、SAP、百度、亞信們能夠從容應(yīng)對(duì)數(shù)據(jù)分析的秘訣所在。
02 傲騰補(bǔ)上數(shù)據(jù)分析的短板
傲騰作為一種新的介質(zhì),為何可以在數(shù)據(jù)處理中發(fā)揮至關(guān)重要的作用?
這還得從計(jì)算機(jī)體系結(jié)構(gòu)說(shuō)起,由于目前計(jì)算依然是馮諾依曼體系結(jié)構(gòu),是計(jì)算與存儲(chǔ)分離的架構(gòu),這就決定了越靠近CPU,數(shù)據(jù)處理速度就越快,但是容量也就越小,這就直接導(dǎo)致了在CPU性能越來(lái)越快的今天,CPU與存儲(chǔ)介質(zhì)之間的性能鴻溝越來(lái)越大。
如果為了數(shù)據(jù)分析的性能,而不斷的增加內(nèi)存容量,則會(huì)大幅提升整體性能成本,出現(xiàn)斷電還會(huì)出現(xiàn)數(shù)據(jù)丟失的情況;如果依靠固態(tài)盤(pán),則又無(wú)法彌補(bǔ)性能鴻溝。
因此,英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存孕育而生。英特爾傲騰數(shù)據(jù)中心持久內(nèi)存與內(nèi)存不同之處在于,它可以以更加經(jīng)濟(jì)的成本來(lái)擴(kuò)展出更高的容量,并且具備數(shù)據(jù)非易失性,還具備以內(nèi)存相近的數(shù)據(jù)讀寫(xiě)和延時(shí),可以完美填補(bǔ)CPU與存儲(chǔ)介質(zhì)之間的性能鴻溝。
英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存具備低成本下大容量的特性,單一模塊可提供128GB/256GB/512GB三種選擇,可以與傳統(tǒng)DDR4 內(nèi)存一種安裝在基于第二代至強(qiáng)可擴(kuò)展處理器的平臺(tái)上,可以以更經(jīng)濟(jì)的價(jià)格在八路系統(tǒng)上實(shí)現(xiàn)高達(dá)24TB的容量,從而幫助用戶在更加靠近CPU的位置加載遠(yuǎn)超之前規(guī)模的數(shù)據(jù)集,完美適合包括內(nèi)存數(shù)據(jù)庫(kù)以及其他對(duì)大容量有需求的數(shù)據(jù)分析應(yīng)用,讓更多數(shù)據(jù)的處理和分析走向?qū)崟r(shí)化。
不僅如此,英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存還在產(chǎn)品模式上充分考慮用戶的需求,提供了三種模式供用戶靈活使用。
英特爾為傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存設(shè)計(jì)了第一種工作模式是內(nèi)存模式。在這種模式下,它就是單純的價(jià)格更便宜、量又足,但斷電后也不會(huì)保存數(shù)據(jù)的內(nèi)存,用作內(nèi)存的容量擴(kuò)展搭檔。處理器的內(nèi)存控制器會(huì)將DRAM內(nèi)存視為緩存,而將英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存作為可尋址的主內(nèi)存。
云計(jì)算最關(guān)鍵的技術(shù)--虛擬化及容器技術(shù)可以最快的速度直接從這種模式中受益,因?yàn)樗梢越璐艘愿偷某杀驹趩蝹€(gè)物理服務(wù)器上提升虛擬機(jī)或容器的密度,或?yàn)?a href='/map/xuniji/' style='color:#000;font-size:inherit;'>虛擬機(jī)及容器提供更大的內(nèi)存容量,且無(wú)需重新編寫(xiě)軟件。對(duì)于數(shù)據(jù)持久性沒(méi)有要求的內(nèi)存數(shù)據(jù)庫(kù),也通用能用這一模式快速實(shí)現(xiàn)在內(nèi)存上的數(shù)據(jù)規(guī)模擴(kuò)展。
比如,在百度Feed流服務(wù)中,其核心模塊Feed-Cube全部部署在英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存的內(nèi)存模式上,在大并發(fā)訪問(wèn)壓力下的性能表現(xiàn)和資源消耗均符合預(yù)期,完美實(shí)現(xiàn)了Feed留服務(wù)高性能 數(shù)據(jù)存取的支撐,大幅降了總體擁有成本。
微軟的虛擬機(jī)服務(wù)也在這種模式下受益匪淺。微軟Windows Server 2019/Hyper-V 多租戶虛擬機(jī)的聯(lián)機(jī)事務(wù)處理(OLTP)云基準(zhǔn)測(cè)試中,使用內(nèi)存和英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存組合,比僅使用內(nèi)存平臺(tái)相比,內(nèi)存容量大幅提升33%,每節(jié)點(diǎn)虛擬機(jī)數(shù)量提升多達(dá)36%,成本則下降30%。
如果用戶對(duì)于數(shù)據(jù)持久性有要求,則英特爾傲騰數(shù)據(jù)中心持久內(nèi)存可以提供第二種工作模式:App Direct模式。這種模式下,操作系統(tǒng)會(huì)將內(nèi)存和英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存視為兩個(gè)獨(dú)立的內(nèi)存池,使得英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存可以像內(nèi)存一樣尋址,并像存儲(chǔ)設(shè)備一樣具備數(shù)據(jù)持久性。
這種持久性讓其在系統(tǒng)重啟期間也能保留此前加載的數(shù)據(jù),從而能增加系統(tǒng)的業(yè)務(wù)彈性,縮短重啟時(shí)間,提升業(yè)務(wù)恢復(fù)的速度。只不過(guò)這種模式需要事先對(duì)運(yùn)行在其上的軟件進(jìn)行修改和調(diào)優(yōu)。
SAP在這種模式下實(shí)現(xiàn)了性能的大幅提升。SAP測(cè)試了其HANA在3TB DRAM內(nèi)存平臺(tái),以及在3TB DRAM內(nèi)存+6TB英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存平臺(tái)上的性能表現(xiàn)。結(jié)果表明,后者可以讓系統(tǒng)重啟速度從20分鐘縮短到90秒,實(shí)現(xiàn)13倍的提升,從而盡可能減少停機(jī)時(shí)間,并使每TB數(shù)據(jù)庫(kù)容量的成本節(jié)約39%。
如果用戶既對(duì)內(nèi)存模式有需求,又有工作負(fù)載需要運(yùn)行在App Direnct模式下,那么英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存就可激活其第三種工作模式--雙重模式,這種模式可通過(guò)預(yù)配置的方式,部分處于內(nèi)存模式,其余部分則處于App Direct模式,借以兼顧用戶的雙重需求。
03 英特爾精選方案讓數(shù)據(jù)分析如虎添翼
2019年4月,英特爾推出第二代至強(qiáng)可擴(kuò)展平臺(tái),包括了第二代至強(qiáng)可擴(kuò)展處理器、傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存等一系列“以數(shù)據(jù)為中心”的產(chǎn)品技術(shù)組合。在這些產(chǎn)品技術(shù)的基礎(chǔ)上,英特爾還推出了英特爾精選方案,可以為包括數(shù)據(jù)分析在內(nèi)的各種工作負(fù)載進(jìn)行優(yōu)化,進(jìn)一步提升應(yīng)用的性能表現(xiàn)。
為了更好地讓用戶能夠在熟悉的軟件上釋放第二代英特爾至強(qiáng)可擴(kuò)展處理器及英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存的潛力,英特爾在精選方面層面攜手合作伙伴,針對(duì)各種以數(shù)據(jù)為中心的工作負(fù)載,加速開(kāi)發(fā)經(jīng)過(guò)全方位優(yōu)化和驗(yàn)證,使之更易于部署和使用,從而推進(jìn)用戶數(shù)據(jù)處理和分析平臺(tái)的創(chuàng)新升級(jí),進(jìn)而幫助用戶駕馭數(shù)據(jù)洪流,打造實(shí)時(shí)洞察,挖掘數(shù)據(jù)價(jià)值。
總體而言,英特爾針對(duì)數(shù)據(jù)分析當(dāng)前面臨的挑戰(zhàn),可以從技術(shù)、產(chǎn)品、解決方案等層面為用戶提供全方位的辦法,這也是像微軟、百度、SAP、亞信們青睞英特爾的原因。未來(lái),隨著更多行業(yè)數(shù)字化程度替身個(gè),數(shù)據(jù)分析將逐步走向普及,將會(huì)有越來(lái)越多的用戶會(huì)選擇英特爾傲騰數(shù)據(jù)中心級(jí)持久內(nèi)存以及英特爾精選解決方案。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無(wú)論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開(kāi)的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10