
作者 | 大數(shù)據(jù)
來源 | hzdashuju
微軟在聯(lián)機事務(wù)處理(OLTP)云基準測試中實現(xiàn)每節(jié)點虛擬機數(shù)量提升36%,硬件成本下降30%;SAP HANA讓系統(tǒng)重啟從20分鐘縮短至90秒,性能提升13倍之多,實現(xiàn)每TB數(shù)據(jù)庫容量成本節(jié)約39%;百度在為Feed流服務(wù)提供高性能數(shù)據(jù)存取支撐時實現(xiàn)TCO的有效降低;亞信在其電信業(yè)務(wù)支持系統(tǒng)中在成本相當?shù)那闆r下,實現(xiàn)查詢響應下降35%……
為什么在數(shù)據(jù)爆炸性增長的今天,微軟、SAP、百度、亞信們能夠?qū)崿F(xiàn)數(shù)據(jù)分析性能的提升以及總體擁有成本的大幅下降?
這一切還得先從數(shù)據(jù)分析的難題說起。
01 數(shù)據(jù)分析的難題在哪里
如今,我們身處一個數(shù)據(jù)洪流的時代,并且數(shù)據(jù)增長的腳步正在加快。過去,因為移動互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)的快速發(fā)展,使得基于人的大量數(shù)據(jù)因此而產(chǎn)生;現(xiàn)在,隨著5G、物聯(lián)網(wǎng)的崛起,越來越多的設(shè)備開始接入到網(wǎng)絡(luò)之中,并且開始源源不斷的產(chǎn)生數(shù)據(jù)。
根據(jù)Strategy Analytics的《全球聯(lián)網(wǎng)和物聯(lián)網(wǎng)設(shè)備預測更新》報告顯示,2018年全球聯(lián)網(wǎng)設(shè)備數(shù)量達到220億,到2025年將會有386億臺聯(lián)網(wǎng)設(shè)備。
身處數(shù)字時代,面對海量數(shù)據(jù)如何挖掘其中的價值、洞悉趨勢變化,就成為幾乎所有企業(yè)/組織所期待的。但一個殘酷的事實卻是,大部分的企業(yè)/組織還只能分析極為一小部分的數(shù)據(jù)。就如IDC Global DataSPhere報告指出,全球只有不到2%的數(shù)據(jù)經(jīng)過了分析。數(shù)據(jù)分析技術(shù)還遠未到普及的程度,數(shù)據(jù)處理與分析的效率則遠遠落后于數(shù)據(jù)產(chǎn)生的數(shù)據(jù)。
那么,當前數(shù)據(jù)分析主要有哪些挑戰(zhàn)?
首先是數(shù)據(jù)分析的數(shù)據(jù)量正在越來越龐大,海量數(shù)據(jù)的產(chǎn)生將走向日?;?/span>以自動駕駛為例,一輛自動駕駛汽車一天收集的樣本就高達上百萬張高清圖譜,其數(shù)據(jù)量高達3TB,并且需要不斷對這些海量數(shù)據(jù)進行分析與學習,進而會產(chǎn)生出更多的數(shù)據(jù)。
未來,隨著醫(yī)療、制造、航天、能源、交通等行業(yè)數(shù)字化程度越來越高,數(shù)據(jù)分析所面臨的壓力也會持續(xù)增大。
其次,數(shù)據(jù)分析對于實時性要求越來越高。雖然數(shù)據(jù)量增長迅速,但是用戶對于數(shù)據(jù)分析實時性的要求一點都沒有下降,甚至希望數(shù)據(jù)分析能夠越快越好。比如運營商的數(shù)據(jù),種類多、體量大,一種話單每天的數(shù)據(jù)量就達到上百億條,如此大的實時數(shù)據(jù)流,也讓業(yè)務(wù)對數(shù)據(jù)分析處理的實時性提出了極高要求。
最后則是數(shù)據(jù)分析對于成本的挑戰(zhàn),由于數(shù)據(jù)分析需要處理的數(shù)據(jù)越來越多。實時性要求越來越快,使得數(shù)據(jù)分析所需要的硬件資源、人員投入也更多,隨之而來的就是整體擁有成本(TCO)的上升。
面對數(shù)據(jù)分析這些典型的挑戰(zhàn),到底使用哪些技術(shù),才可以讓數(shù)據(jù)分析和價值挖掘帶來更快的速度和更加合理的成本?大部分人認為需要更快、核心更多、架構(gòu)更有的CPU,但是CPU速度越來越快的今天,存儲和網(wǎng)絡(luò)傳輸?shù)男阅芷鋵嵤悄壳白畲蟮钠款i所在,亟需通過新技術(shù)補上。
如何破解數(shù)據(jù)分析這些難題?英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存被認為是一劑良方。這也是微軟、SAP、百度、亞信們能夠從容應對數(shù)據(jù)分析的秘訣所在。
02 傲騰補上數(shù)據(jù)分析的短板
傲騰作為一種新的介質(zhì),為何可以在數(shù)據(jù)處理中發(fā)揮至關(guān)重要的作用?
這還得從計算機體系結(jié)構(gòu)說起,由于目前計算依然是馮諾依曼體系結(jié)構(gòu),是計算與存儲分離的架構(gòu),這就決定了越靠近CPU,數(shù)據(jù)處理速度就越快,但是容量也就越小,這就直接導致了在CPU性能越來越快的今天,CPU與存儲介質(zhì)之間的性能鴻溝越來越大。
如果為了數(shù)據(jù)分析的性能,而不斷的增加內(nèi)存容量,則會大幅提升整體性能成本,出現(xiàn)斷電還會出現(xiàn)數(shù)據(jù)丟失的情況;如果依靠固態(tài)盤,則又無法彌補性能鴻溝。
因此,英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存孕育而生。英特爾傲騰數(shù)據(jù)中心持久內(nèi)存與內(nèi)存不同之處在于,它可以以更加經(jīng)濟的成本來擴展出更高的容量,并且具備數(shù)據(jù)非易失性,還具備以內(nèi)存相近的數(shù)據(jù)讀寫和延時,可以完美填補CPU與存儲介質(zhì)之間的性能鴻溝。
英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存具備低成本下大容量的特性,單一模塊可提供128GB/256GB/512GB三種選擇,可以與傳統(tǒng)DDR4 內(nèi)存一種安裝在基于第二代至強可擴展處理器的平臺上,可以以更經(jīng)濟的價格在八路系統(tǒng)上實現(xiàn)高達24TB的容量,從而幫助用戶在更加靠近CPU的位置加載遠超之前規(guī)模的數(shù)據(jù)集,完美適合包括內(nèi)存數(shù)據(jù)庫以及其他對大容量有需求的數(shù)據(jù)分析應用,讓更多數(shù)據(jù)的處理和分析走向?qū)崟r化。
不僅如此,英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存還在產(chǎn)品模式上充分考慮用戶的需求,提供了三種模式供用戶靈活使用。
英特爾為傲騰數(shù)據(jù)中心級持久內(nèi)存設(shè)計了第一種工作模式是內(nèi)存模式。在這種模式下,它就是單純的價格更便宜、量又足,但斷電后也不會保存數(shù)據(jù)的內(nèi)存,用作內(nèi)存的容量擴展搭檔。處理器的內(nèi)存控制器會將DRAM內(nèi)存視為緩存,而將英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存作為可尋址的主內(nèi)存。
云計算最關(guān)鍵的技術(shù)--虛擬化及容器技術(shù)可以最快的速度直接從這種模式中受益,因為它可以借此以更低的成本在單個物理服務(wù)器上提升虛擬機或容器的密度,或為虛擬機及容器提供更大的內(nèi)存容量,且無需重新編寫軟件。對于數(shù)據(jù)持久性沒有要求的內(nèi)存數(shù)據(jù)庫,也通用能用這一模式快速實現(xiàn)在內(nèi)存上的數(shù)據(jù)規(guī)模擴展。
比如,在百度Feed流服務(wù)中,其核心模塊Feed-Cube全部部署在英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存的內(nèi)存模式上,在大并發(fā)訪問壓力下的性能表現(xiàn)和資源消耗均符合預期,完美實現(xiàn)了Feed留服務(wù)高性能 數(shù)據(jù)存取的支撐,大幅降了總體擁有成本。
微軟的虛擬機服務(wù)也在這種模式下受益匪淺。微軟Windows Server 2019/Hyper-V 多租戶虛擬機的聯(lián)機事務(wù)處理(OLTP)云基準測試中,使用內(nèi)存和英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存組合,比僅使用內(nèi)存平臺相比,內(nèi)存容量大幅提升33%,每節(jié)點虛擬機數(shù)量提升多達36%,成本則下降30%。
如果用戶對于數(shù)據(jù)持久性有要求,則英特爾傲騰數(shù)據(jù)中心持久內(nèi)存可以提供第二種工作模式:App Direct模式。這種模式下,操作系統(tǒng)會將內(nèi)存和英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存視為兩個獨立的內(nèi)存池,使得英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存可以像內(nèi)存一樣尋址,并像存儲設(shè)備一樣具備數(shù)據(jù)持久性。
這種持久性讓其在系統(tǒng)重啟期間也能保留此前加載的數(shù)據(jù),從而能增加系統(tǒng)的業(yè)務(wù)彈性,縮短重啟時間,提升業(yè)務(wù)恢復的速度。只不過這種模式需要事先對運行在其上的軟件進行修改和調(diào)優(yōu)。
SAP在這種模式下實現(xiàn)了性能的大幅提升。SAP測試了其HANA在3TB DRAM內(nèi)存平臺,以及在3TB DRAM內(nèi)存+6TB英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存平臺上的性能表現(xiàn)。結(jié)果表明,后者可以讓系統(tǒng)重啟速度從20分鐘縮短到90秒,實現(xiàn)13倍的提升,從而盡可能減少停機時間,并使每TB數(shù)據(jù)庫容量的成本節(jié)約39%。
如果用戶既對內(nèi)存模式有需求,又有工作負載需要運行在App Direnct模式下,那么英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存就可激活其第三種工作模式--雙重模式,這種模式可通過預配置的方式,部分處于內(nèi)存模式,其余部分則處于App Direct模式,借以兼顧用戶的雙重需求。
03 英特爾精選方案讓數(shù)據(jù)分析如虎添翼
2019年4月,英特爾推出第二代至強可擴展平臺,包括了第二代至強可擴展處理器、傲騰數(shù)據(jù)中心級持久內(nèi)存等一系列“以數(shù)據(jù)為中心”的產(chǎn)品技術(shù)組合。在這些產(chǎn)品技術(shù)的基礎(chǔ)上,英特爾還推出了英特爾精選方案,可以為包括數(shù)據(jù)分析在內(nèi)的各種工作負載進行優(yōu)化,進一步提升應用的性能表現(xiàn)。
為了更好地讓用戶能夠在熟悉的軟件上釋放第二代英特爾至強可擴展處理器及英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存的潛力,英特爾在精選方面層面攜手合作伙伴,針對各種以數(shù)據(jù)為中心的工作負載,加速開發(fā)經(jīng)過全方位優(yōu)化和驗證,使之更易于部署和使用,從而推進用戶數(shù)據(jù)處理和分析平臺的創(chuàng)新升級,進而幫助用戶駕馭數(shù)據(jù)洪流,打造實時洞察,挖掘數(shù)據(jù)價值。
總體而言,英特爾針對數(shù)據(jù)分析當前面臨的挑戰(zhàn),可以從技術(shù)、產(chǎn)品、解決方案等層面為用戶提供全方位的辦法,這也是像微軟、百度、SAP、亞信們青睞英特爾的原因。未來,隨著更多行業(yè)數(shù)字化程度替身個,數(shù)據(jù)分析將逐步走向普及,將會有越來越多的用戶會選擇英特爾傲騰數(shù)據(jù)中心級持久內(nèi)存以及英特爾精選解決方案。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03