
大數(shù)據(jù)時(shí)代:盤點(diǎn)各大廠商大數(shù)據(jù)布局
新興的大數(shù)據(jù)企業(yè)如雨后春筍般涌現(xiàn)。各大廠商迅速崛起,以"大數(shù)據(jù)即服務(wù)"方案力爭在未來龐大的市場需求依靠自身的創(chuàng)新為客戶創(chuàng)造出獨(dú)特的價(jià)值。
IBM提供BigInsights、BigSheets和BigCloud
僅僅幾年前,IBM開始在其實(shí)驗(yàn)室嘗試使用Hadoop,但是它在去年將相關(guān)產(chǎn)品和 服務(wù)納入到商業(yè)版,甲骨文和微軟在其之后才宣布各自也將積極接受該平臺。IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包包括Apache Hadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對IBM的DB2數(shù)據(jù)庫的連接件以及IBM BigSheets,后者是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的數(shù)據(jù)。
IBM隨后又在10月通過其智慧云企業(yè)(SmartCloud Enterprise)基礎(chǔ)架構(gòu),將BigInsights和BigSheets作為一項(xiàng)服務(wù)來提供。這項(xiàng)服務(wù)分基礎(chǔ)版和企業(yè)版;賣點(diǎn)就是客戶不必購買支持性硬件,也不需要IT專門知識就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM聲稱,客戶用不了30分鐘就能搭建起Hadoop集群,并將數(shù)據(jù)轉(zhuǎn)移到集群里面,數(shù)據(jù)處理費(fèi)用是每個(gè)集群每小時(shí)60美分起。
Oracle:數(shù)據(jù)庫+大數(shù)據(jù)機(jī)
Oracle的大數(shù)據(jù)策清晰而直接。NoSQL數(shù)據(jù)庫和Big Data Appliance組合為客戶直接擁有處理非結(jié)構(gòu)化海量數(shù)據(jù)的能力。甲骨文大數(shù)據(jù)機(jī)(Oracle Big Data Appliance)將甲骨文-Sun分布式計(jì)算平臺與Cloudera的Apache Hadoop發(fā)行版、Cloudera管理器管理控制臺、R分析軟件的開源發(fā)行版以及甲骨文NoSQL數(shù)據(jù)庫結(jié)合起來。甲骨文還包括連接件,因而讓數(shù)據(jù)能 夠在大數(shù)據(jù)機(jī)與甲骨文Exadata或傳統(tǒng)的甲骨文數(shù)據(jù)庫部署環(huán)境之間來回傳送。甲骨文為這套綜合的軟硬件"工程一體化系統(tǒng)"提供了一線支持;但是即使出 現(xiàn)棘手的Hadoop難題,甲骨文也可以利用Cloudera的專長,它還可以介紹客戶使用Cloudera的Hadoop培訓(xùn)和咨詢服務(wù)。
大數(shù)據(jù)機(jī)通過全機(jī)架(full-rack)配置,每個(gè)機(jī)架配備864GB主內(nèi)存、216個(gè)處理器核心、648TB原始磁盤存儲容量,以及節(jié)點(diǎn)之間每秒40千兆的InifiniBand內(nèi)部連接。軟硬件總計(jì)售價(jià)將達(dá)到45萬美元,每年收取12%的軟硬件支持費(fèi)。這個(gè)價(jià)格頗具競爭力,相當(dāng)于每TB不到700美元。
微軟:面對開放的懸疑
微軟在去年推出了基于Azure云平臺的測試版Hadoop服務(wù),今年它承諾會(huì)推出與Windows兼容的基于Hadoop的大數(shù)據(jù)解決方案(Big Data Solution),這是微軟SQL Server 2012版本的一部分。微軟宣布推出了兩個(gè)基于Hadoop的大數(shù)據(jù)處理的社區(qū)技術(shù)預(yù)覽版連接器組件,一個(gè)用于SQL Server,另一個(gè)用于SQL Server并行數(shù)據(jù)倉庫(PDW)。該連接器是一個(gè)部署在Linux環(huán)境中的命令行工具。
SQL Server Hadoop連接器在微軟大數(shù)據(jù)之路上最重要的一步。但由于Hadoop、Linux和Sqoop都是開源技術(shù),這意味著微軟要對開源世界大規(guī)模地敞開胸懷,這一點(diǎn)值得用戶關(guān)注。另外,微軟還宣布將推出LINQ Pack、LINQ to HPC、Project"Daytona"以及Excel DataScope,這些產(chǎn)品都將專為研究人員和業(yè)務(wù)分析師打造,用以在Windows Azure上做大數(shù)據(jù)分析。
EMC:單一的數(shù)據(jù)分析平臺
Greenplum在大數(shù)據(jù)方面有43000萬美元營收,目前由EMC公司所有。EMC Greenplum統(tǒng)一分析平臺(UAP)是一款單一軟件平臺,數(shù)據(jù)團(tuán)隊(duì)和分析團(tuán)隊(duì)可以在該平臺上無縫地共享信息、協(xié)作分析,沒必要在不同的孤島上工作, 或者在不同的孤島之間轉(zhuǎn)移數(shù)據(jù)。正因?yàn)槿绱耍琔AP包括ECM Greenplum關(guān)系數(shù)據(jù)庫、EMC Greenplum HD Hadoop發(fā)行版和EMC Greenplum Chorus,而后者是一種協(xié)作式、類似社交網(wǎng)絡(luò)的界面,可供數(shù)據(jù)分析團(tuán)隊(duì)處理,無論團(tuán)隊(duì)成員是有博士頭銜的數(shù)據(jù)科學(xué)家、數(shù)據(jù)集成專家和商業(yè)智能分析員, 還是數(shù)據(jù)庫管理員和業(yè)務(wù)部門的用戶及管理人員。
EMC為大數(shù)據(jù)開發(fā)的硬件是模塊化的EMC數(shù)據(jù)計(jì)算設(shè)備(DCA),它能夠在一個(gè)設(shè)備里面運(yùn)行并擴(kuò)展Greenplum關(guān)系數(shù)據(jù)庫和 Greenplum HD節(jié)點(diǎn)。DCA提供了一個(gè)共享的指揮中心(Command Center)界面,讓管理員可以監(jiān)控、管理和配置Greenplum數(shù)據(jù)庫和Hadoop系統(tǒng)性能及容量。UAP軟件將數(shù)據(jù)訪問、管理和工作流統(tǒng)一起 來,并與其他數(shù)據(jù)源和數(shù)據(jù)處理方法聯(lián)系起來;隨著Hadoop平臺日趨成熟,預(yù)計(jì)分析功能會(huì)急劇增加。
亞馬遜:深入了解用戶需求
早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),對Hadoop的需求和應(yīng)用可謂了若指掌,這包括了運(yùn)行試點(diǎn)項(xiàng)目的新手,內(nèi)部部署的預(yù)置型系統(tǒng)遇到需求過載的難題,或是利用彈性MapReduce來獲取額外容量的專業(yè)人士。
彈性MapReduce是一項(xiàng)能夠迅速擴(kuò)展的Web服務(wù),運(yùn)行在亞馬遜彈性計(jì)算云(Amazon EC2)和亞馬遜簡單存儲服務(wù)(Amazon S3)上。面對數(shù)據(jù)密集型任務(wù),比如互聯(lián)網(wǎng)索引、數(shù)據(jù)挖掘、日志文件分析、機(jī)器學(xué)習(xí)、金融分析、科學(xué)模擬和生物信息學(xué)研究,用戶需要多大容量,立即就能配置到多大容量。除數(shù)據(jù)處理外,用戶還可以使用Karmasphere Analyst的基于服務(wù)的版本,Karmasphere Analyst是一種可視化工作區(qū),用于在亞馬遜彈性MapReduce上分析數(shù)據(jù)。Karmasphere提供了可視化工具,以便使用SQL及其他語言,針對在亞馬遜S3、亞馬遜彈性MapReduce作業(yè)流或本地文件系統(tǒng)上的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),執(zhí)行即席查詢和分析。用戶還可以提取結(jié)果文件, 以便在數(shù)據(jù)庫或者微軟Excel或Tableau等工具中使用。
SAP: HAHA內(nèi)存計(jì)算技術(shù)加速計(jì)算
SAP基于內(nèi)存計(jì)算的高性能分析應(yīng)用軟件(SAP HANA)將構(gòu)建一個(gè)公開的平臺,開放給不同領(lǐng)域、不同行業(yè)的合作伙伴,聯(lián)手合作伙伴共同運(yùn)作,讓更多用戶通過HANA得到真正的收益。國內(nèi)一家快消品企業(yè)完成9500萬條信息的數(shù)據(jù)分析在采用新的SAP內(nèi)存計(jì)算分析技術(shù)后,響應(yīng)時(shí)間僅需四秒鐘。目前,SAP已與包括英特爾、IBM、惠普、戴爾、富士通、思科等在內(nèi)的多家伙伴達(dá)成合作共識。
Sybase:用SQL數(shù)據(jù)庫應(yīng)對大數(shù)據(jù)
Sybase并沒有推出類似Oracle的NoSQL數(shù)據(jù)庫功能,但是據(jù)了解,他們在最新版本的數(shù)據(jù)庫中,已經(jīng)將大數(shù)據(jù)提到了一個(gè)非常重要的位置。在Sybase ASE 15.7當(dāng)中,新增的一個(gè)重要特性就是對大對象(LOB)的管理增強(qiáng),包括LOB壓縮、行內(nèi)LOB、復(fù)制機(jī)制以及LOB的讀取與運(yùn)算方面都進(jìn)行了特別的改進(jìn)。LOB中包含了非結(jié)構(gòu)化數(shù)據(jù),因此Sybase ASE 15.7新增的這些功能都使得DBA在應(yīng)對大數(shù)據(jù)時(shí)更加輕松。
另外在他們的分析數(shù)據(jù)庫Sybase IQ 15.4中,還添加了如MapReduce API、對預(yù)測模型語言的支持、集成的Hadoop以及擴(kuò)展數(shù)據(jù)挖掘算法函數(shù)庫等功能。很明顯,這一系列新特性與大數(shù)據(jù)的關(guān)系密切,是新版本中最大的亮點(diǎn)。
Informatica:不拒絕任何格式
Informatica推出的HParser是一種針對Hadoop而優(yōu)化的數(shù)據(jù)轉(zhuǎn)換環(huán)境。軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發(fā)人員提供了即開即用的解析功能,以便處理復(fù)雜而 多樣的數(shù)據(jù)源,包括日志、文檔、二進(jìn)制數(shù)據(jù)或?qū)哟问綌?shù)據(jù),以及眾多行業(yè)標(biāo)準(zhǔn)格式(如銀行業(yè)的NACHA、支付業(yè)的SWIFT、金融數(shù)據(jù)業(yè)的FIX和保險(xiǎn)業(yè) 的ACORD)。正如數(shù)據(jù)庫內(nèi)處理技術(shù)加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop里面,以便充分利用所有這些處理功 能,不久會(huì)添加其他的數(shù)據(jù)處理代碼。
Informatica希望能夠借助統(tǒng)一的環(huán)境和方法,全面滿足數(shù)據(jù)管理和數(shù)據(jù)集成方面的要求。這家公司的企業(yè)客戶超過 4300個(gè),它估計(jì)10%以上的客戶正進(jìn)入到大數(shù)據(jù)領(lǐng)域(大數(shù)據(jù)的容量超過100TB)。市場地位和技術(shù)創(chuàng)新使得Informatica成為值得關(guān)注的一家Hadoop專業(yè)廠商。
Cloudera:提供Hadoop的企業(yè)安全
Cloudera公司自2008年以來就一直致力于將開源Apache Hadoop打造成一款供企業(yè)使用的可靠平臺。這家公司有100多個(gè)客戶,不過鑒于Cloudera最近與IT業(yè)界老大的數(shù)據(jù)庫供應(yīng)商甲骨文結(jié)為合作伙伴,今年其客戶數(shù)量有望大幅增加。
Cloudera為其Apache Hadoop軟件發(fā)行版增添了兩個(gè)重要部分:一個(gè)是用于控制和管理Hadoop部署環(huán)境的Cloudera管理器控制臺,另一個(gè)是企業(yè)級支持。 Cloudera管理器提供了基于向?qū)У陌惭b和配置菜單,以便部署Hadoop.另外,它還提供了一些工具,幫助系統(tǒng)管理人員監(jiān)控平臺的運(yùn)行狀況、診斷問題、優(yōu)化性能,以及在配置和安全方面作出所需的變更。
Cloudera支持服務(wù)分每天8小時(shí)每周五天或每天24小時(shí)每周七天這兩種,服務(wù)包括配置檢查、問題逐級上報(bào)和解決、與第三方系統(tǒng)集成以及知識庫、文章及其他技術(shù)資源。除了現(xiàn)有的這些服務(wù)外,還有培訓(xùn)和咨詢服務(wù)。Cloudera 企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器及支持,標(biāo)價(jià)為每年每個(gè)節(jié)點(diǎn)4000美元(不包括硬件)。
Datameer將商業(yè)智能運(yùn)用到大數(shù)據(jù)上
Datameer公司宣稱其Datameer分析解決方案(DAS)是一款面向Hadoop、針對企業(yè)用戶的商業(yè)智能(BI)平臺。但是DAS并不將Hadoop當(dāng)作信息孤島:它可以通過JDBC、Hive、HTTP或其他標(biāo)準(zhǔn),連接到任何數(shù)據(jù)源。它包含了一個(gè)由向?qū)?qū)動(dòng)的集成平臺,讓用戶可以安排調(diào)度負(fù)載,并且轉(zhuǎn)換來自任何這些數(shù)據(jù)源的龐大的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)集。用戶可以通過類似電子表格的DAS界面,運(yùn)用180多項(xiàng)分析功能中的任何一項(xiàng)功能。企業(yè)用戶可以獲得拖放式報(bào)告和儀表板功能。DAS可以在私有云或公共云上運(yùn)行,而且有一套代表性狀態(tài)傳輸(REST)應(yīng)用編程接口(API),用于數(shù)據(jù)導(dǎo)入和導(dǎo)出。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10