
大數(shù)據(jù)時(shí)代:盤點(diǎn)各大廠商大數(shù)據(jù)布局
新興的大數(shù)據(jù)企業(yè)如雨后春筍般涌現(xiàn)。各大廠商迅速崛起,以"大數(shù)據(jù)即服務(wù)"方案力爭在未來龐大的市場需求依靠自身的創(chuàng)新為客戶創(chuàng)造出獨(dú)特的價(jià)值。
IBM提供BigInsights、BigSheets和BigCloud
僅僅幾年前,IBM開始在其實(shí)驗(yàn)室嘗試使用Hadoop,但是它在去年將相關(guān)產(chǎn)品和 服務(wù)納入到商業(yè)版,甲骨文和微軟在其之后才宣布各自也將積極接受該平臺(tái)。IBM在去年5月推出了InfoSphere BigInsights軟件。該軟件包包括Apache Hadoop發(fā)行版、面向MapReduce編程的Pig編程語言、針對(duì)IBM的DB2數(shù)據(jù)庫的連接件以及IBM BigSheets,后者是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的數(shù)據(jù)。
IBM隨后又在10月通過其智慧云企業(yè)(SmartCloud Enterprise)基礎(chǔ)架構(gòu),將BigInsights和BigSheets作為一項(xiàng)服務(wù)來提供。這項(xiàng)服務(wù)分基礎(chǔ)版和企業(yè)版;賣點(diǎn)就是客戶不必購買支持性硬件,也不需要IT專門知識(shí)就可以學(xué)習(xí)和試用大數(shù)據(jù)處理和分析功能。據(jù)IBM聲稱,客戶用不了30分鐘就能搭建起Hadoop集群,并將數(shù)據(jù)轉(zhuǎn)移到集群里面,數(shù)據(jù)處理費(fèi)用是每個(gè)集群每小時(shí)60美分起。
Oracle:數(shù)據(jù)庫+大數(shù)據(jù)機(jī)
Oracle的大數(shù)據(jù)策清晰而直接。NoSQL數(shù)據(jù)庫和Big Data Appliance組合為客戶直接擁有處理非結(jié)構(gòu)化海量數(shù)據(jù)的能力。甲骨文大數(shù)據(jù)機(jī)(Oracle Big Data Appliance)將甲骨文-Sun分布式計(jì)算平臺(tái)與Cloudera的Apache Hadoop發(fā)行版、Cloudera管理器管理控制臺(tái)、R分析軟件的開源發(fā)行版以及甲骨文NoSQL數(shù)據(jù)庫結(jié)合起來。甲骨文還包括連接件,因而讓數(shù)據(jù)能 夠在大數(shù)據(jù)機(jī)與甲骨文Exadata或傳統(tǒng)的甲骨文數(shù)據(jù)庫部署環(huán)境之間來回傳送。甲骨文為這套綜合的軟硬件"工程一體化系統(tǒng)"提供了一線支持;但是即使出 現(xiàn)棘手的Hadoop難題,甲骨文也可以利用Cloudera的專長,它還可以介紹客戶使用Cloudera的Hadoop培訓(xùn)和咨詢服務(wù)。
大數(shù)據(jù)機(jī)通過全機(jī)架(full-rack)配置,每個(gè)機(jī)架配備864GB主內(nèi)存、216個(gè)處理器核心、648TB原始磁盤存儲(chǔ)容量,以及節(jié)點(diǎn)之間每秒40千兆的InifiniBand內(nèi)部連接。軟硬件總計(jì)售價(jià)將達(dá)到45萬美元,每年收取12%的軟硬件支持費(fèi)。這個(gè)價(jià)格頗具競爭力,相當(dāng)于每TB不到700美元。
微軟:面對(duì)開放的懸疑
微軟在去年推出了基于Azure云平臺(tái)的測試版Hadoop服務(wù),今年它承諾會(huì)推出與Windows兼容的基于Hadoop的大數(shù)據(jù)解決方案(Big Data Solution),這是微軟SQL Server 2012版本的一部分。微軟宣布推出了兩個(gè)基于Hadoop的大數(shù)據(jù)處理的社區(qū)技術(shù)預(yù)覽版連接器組件,一個(gè)用于SQL Server,另一個(gè)用于SQL Server并行數(shù)據(jù)倉庫(PDW)。該連接器是一個(gè)部署在Linux環(huán)境中的命令行工具。
SQL Server Hadoop連接器在微軟大數(shù)據(jù)之路上最重要的一步。但由于Hadoop、Linux和Sqoop都是開源技術(shù),這意味著微軟要對(duì)開源世界大規(guī)模地敞開胸懷,這一點(diǎn)值得用戶關(guān)注。另外,微軟還宣布將推出LINQ Pack、LINQ to HPC、Project"Daytona"以及Excel DataScope,這些產(chǎn)品都將專為研究人員和業(yè)務(wù)分析師打造,用以在Windows Azure上做大數(shù)據(jù)分析。
EMC:單一的數(shù)據(jù)分析平臺(tái)
Greenplum在大數(shù)據(jù)方面有43000萬美元營收,目前由EMC公司所有。EMC Greenplum統(tǒng)一分析平臺(tái)(UAP)是一款單一軟件平臺(tái),數(shù)據(jù)團(tuán)隊(duì)和分析團(tuán)隊(duì)可以在該平臺(tái)上無縫地共享信息、協(xié)作分析,沒必要在不同的孤島上工作, 或者在不同的孤島之間轉(zhuǎn)移數(shù)據(jù)。正因?yàn)槿绱?,UAP包括ECM Greenplum關(guān)系數(shù)據(jù)庫、EMC Greenplum HD Hadoop發(fā)行版和EMC Greenplum Chorus,而后者是一種協(xié)作式、類似社交網(wǎng)絡(luò)的界面,可供數(shù)據(jù)分析團(tuán)隊(duì)處理,無論團(tuán)隊(duì)成員是有博士頭銜的數(shù)據(jù)科學(xué)家、數(shù)據(jù)集成專家和商業(yè)智能分析員, 還是數(shù)據(jù)庫管理員和業(yè)務(wù)部門的用戶及管理人員。
EMC為大數(shù)據(jù)開發(fā)的硬件是模塊化的EMC數(shù)據(jù)計(jì)算設(shè)備(DCA),它能夠在一個(gè)設(shè)備里面運(yùn)行并擴(kuò)展Greenplum關(guān)系數(shù)據(jù)庫和 Greenplum HD節(jié)點(diǎn)。DCA提供了一個(gè)共享的指揮中心(Command Center)界面,讓管理員可以監(jiān)控、管理和配置Greenplum數(shù)據(jù)庫和Hadoop系統(tǒng)性能及容量。UAP軟件將數(shù)據(jù)訪問、管理和工作流統(tǒng)一起 來,并與其他數(shù)據(jù)源和數(shù)據(jù)處理方法聯(lián)系起來;隨著Hadoop平臺(tái)日趨成熟,預(yù)計(jì)分析功能會(huì)急劇增加。
亞馬遜:深入了解用戶需求
早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),對(duì)Hadoop的需求和應(yīng)用可謂了若指掌,這包括了運(yùn)行試點(diǎn)項(xiàng)目的新手,內(nèi)部部署的預(yù)置型系統(tǒng)遇到需求過載的難題,或是利用彈性MapReduce來獲取額外容量的專業(yè)人士。
彈性MapReduce是一項(xiàng)能夠迅速擴(kuò)展的Web服務(wù),運(yùn)行在亞馬遜彈性計(jì)算云(Amazon EC2)和亞馬遜簡單存儲(chǔ)服務(wù)(Amazon S3)上。面對(duì)數(shù)據(jù)密集型任務(wù),比如互聯(lián)網(wǎng)索引、數(shù)據(jù)挖掘、日志文件分析、機(jī)器學(xué)習(xí)、金融分析、科學(xué)模擬和生物信息學(xué)研究,用戶需要多大容量,立即就能配置到多大容量。除數(shù)據(jù)處理外,用戶還可以使用Karmasphere Analyst的基于服務(wù)的版本,Karmasphere Analyst是一種可視化工作區(qū),用于在亞馬遜彈性MapReduce上分析數(shù)據(jù)。Karmasphere提供了可視化工具,以便使用SQL及其他語言,針對(duì)在亞馬遜S3、亞馬遜彈性MapReduce作業(yè)流或本地文件系統(tǒng)上的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),執(zhí)行即席查詢和分析。用戶還可以提取結(jié)果文件, 以便在數(shù)據(jù)庫或者微軟Excel或Tableau等工具中使用。
SAP: HAHA內(nèi)存計(jì)算技術(shù)加速計(jì)算
SAP基于內(nèi)存計(jì)算的高性能分析應(yīng)用軟件(SAP HANA)將構(gòu)建一個(gè)公開的平臺(tái),開放給不同領(lǐng)域、不同行業(yè)的合作伙伴,聯(lián)手合作伙伴共同運(yùn)作,讓更多用戶通過HANA得到真正的收益。國內(nèi)一家快消品企業(yè)完成9500萬條信息的數(shù)據(jù)分析在采用新的SAP內(nèi)存計(jì)算分析技術(shù)后,響應(yīng)時(shí)間僅需四秒鐘。目前,SAP已與包括英特爾、IBM、惠普、戴爾、富士通、思科等在內(nèi)的多家伙伴達(dá)成合作共識(shí)。
Sybase:用SQL數(shù)據(jù)庫應(yīng)對(duì)大數(shù)據(jù)
Sybase并沒有推出類似Oracle的NoSQL數(shù)據(jù)庫功能,但是據(jù)了解,他們在最新版本的數(shù)據(jù)庫中,已經(jīng)將大數(shù)據(jù)提到了一個(gè)非常重要的位置。在Sybase ASE 15.7當(dāng)中,新增的一個(gè)重要特性就是對(duì)大對(duì)象(LOB)的管理增強(qiáng),包括LOB壓縮、行內(nèi)LOB、復(fù)制機(jī)制以及LOB的讀取與運(yùn)算方面都進(jìn)行了特別的改進(jìn)。LOB中包含了非結(jié)構(gòu)化數(shù)據(jù),因此Sybase ASE 15.7新增的這些功能都使得DBA在應(yīng)對(duì)大數(shù)據(jù)時(shí)更加輕松。
另外在他們的分析數(shù)據(jù)庫Sybase IQ 15.4中,還添加了如MapReduce API、對(duì)預(yù)測模型語言的支持、集成的Hadoop以及擴(kuò)展數(shù)據(jù)挖掘算法函數(shù)庫等功能。很明顯,這一系列新特性與大數(shù)據(jù)的關(guān)系密切,是新版本中最大的亮點(diǎn)。
Informatica:不拒絕任何格式
Informatica推出的HParser是一種針對(duì)Hadoop而優(yōu)化的數(shù)據(jù)轉(zhuǎn)換環(huán)境。軟件支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發(fā)人員提供了即開即用的解析功能,以便處理復(fù)雜而 多樣的數(shù)據(jù)源,包括日志、文檔、二進(jìn)制數(shù)據(jù)或?qū)哟问綌?shù)據(jù),以及眾多行業(yè)標(biāo)準(zhǔn)格式(如銀行業(yè)的NACHA、支付業(yè)的SWIFT、金融數(shù)據(jù)業(yè)的FIX和保險(xiǎn)業(yè) 的ACORD)。正如數(shù)據(jù)庫內(nèi)處理技術(shù)加快了各種分析方法,Informatica同樣將解析代碼添加到Hadoop里面,以便充分利用所有這些處理功 能,不久會(huì)添加其他的數(shù)據(jù)處理代碼。
Informatica希望能夠借助統(tǒng)一的環(huán)境和方法,全面滿足數(shù)據(jù)管理和數(shù)據(jù)集成方面的要求。這家公司的企業(yè)客戶超過 4300個(gè),它估計(jì)10%以上的客戶正進(jìn)入到大數(shù)據(jù)領(lǐng)域(大數(shù)據(jù)的容量超過100TB)。市場地位和技術(shù)創(chuàng)新使得Informatica成為值得關(guān)注的一家Hadoop專業(yè)廠商。
Cloudera:提供Hadoop的企業(yè)安全
Cloudera公司自2008年以來就一直致力于將開源Apache Hadoop打造成一款供企業(yè)使用的可靠平臺(tái)。這家公司有100多個(gè)客戶,不過鑒于Cloudera最近與IT業(yè)界老大的數(shù)據(jù)庫供應(yīng)商甲骨文結(jié)為合作伙伴,今年其客戶數(shù)量有望大幅增加。
Cloudera為其Apache Hadoop軟件發(fā)行版增添了兩個(gè)重要部分:一個(gè)是用于控制和管理Hadoop部署環(huán)境的Cloudera管理器控制臺(tái),另一個(gè)是企業(yè)級(jí)支持。 Cloudera管理器提供了基于向?qū)У陌惭b和配置菜單,以便部署Hadoop.另外,它還提供了一些工具,幫助系統(tǒng)管理人員監(jiān)控平臺(tái)的運(yùn)行狀況、診斷問題、優(yōu)化性能,以及在配置和安全方面作出所需的變更。
Cloudera支持服務(wù)分每天8小時(shí)每周五天或每天24小時(shí)每周七天這兩種,服務(wù)包括配置檢查、問題逐級(jí)上報(bào)和解決、與第三方系統(tǒng)集成以及知識(shí)庫、文章及其他技術(shù)資源。除了現(xiàn)有的這些服務(wù)外,還有培訓(xùn)和咨詢服務(wù)。Cloudera 企業(yè)解決方案包括Hadoop軟件發(fā)行版、Cloudera管理器及支持,標(biāo)價(jià)為每年每個(gè)節(jié)點(diǎn)4000美元(不包括硬件)。
Datameer將商業(yè)智能運(yùn)用到大數(shù)據(jù)上
Datameer公司宣稱其Datameer分析解決方案(DAS)是一款面向Hadoop、針對(duì)企業(yè)用戶的商業(yè)智能(BI)平臺(tái)。但是DAS并不將Hadoop當(dāng)作信息孤島:它可以通過JDBC、Hive、HTTP或其他標(biāo)準(zhǔn),連接到任何數(shù)據(jù)源。它包含了一個(gè)由向?qū)?qū)動(dòng)的集成平臺(tái),讓用戶可以安排調(diào)度負(fù)載,并且轉(zhuǎn)換來自任何這些數(shù)據(jù)源的龐大的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)集。用戶可以通過類似電子表格的DAS界面,運(yùn)用180多項(xiàng)分析功能中的任何一項(xiàng)功能。企業(yè)用戶可以獲得拖放式報(bào)告和儀表板功能。DAS可以在私有云或公共云上運(yùn)行,而且有一套代表性狀態(tài)傳輸(REST)應(yīng)用編程接口(API),用于數(shù)據(jù)導(dǎo)入和導(dǎo)出。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場調(diào)研是企業(yè)洞察市場動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03