
在大數據時代,Hadoop分布式處理架構為IT、數據管理以及數據分析團隊帶來了新生機的同時,也帶來了新的挑戰(zhàn)。隨著Hadoop生態(tài)系統(tǒng)的不斷發(fā)展壯大,企業(yè)需要對快速更新?lián)Q代的技術做好充足的準備。
上周,Apache軟件基金會剛剛宣布了Hadoop 2.0的正式GA,新版本的Hadoop將帶來大量變化。以HDFS和基于Java的MapReduce為核心組件,Hadoop的早期采用者都在使用它應對海量數據處理,包括結構化與非結構化數據,從日志文件到文本數據,再從傳感器數據再到社交媒體數據不一而足。
Hadoop 1.0向2.0的轉變
Hadoop通常以集群的方式運行在廉價服務器上,因此可以有效控制海量數據處理和存儲的成本。Ventana研究機構的副總裁Tony Cosentino表示,Hadoop采取了輕架構的數據處理方式, 因此它能夠對新型數據源進行充分利用,這是傳統(tǒng)關系型數據庫架構所不能比擬的。
但Cosentino認為,目前的Hadoop架構也受到了批處理模式的限制,可以把它比作是一輛重型卡車,在性能方面存在較大瓶頸。Hadoop不適合有低延遲需求的應用,它更適合干重活,即海量數據處理。
Hadoop適合分析海量非結構化數據集,它通常是上TB甚至PB的數量級。ScaleOut Software的CEO William Bain表示,由于Hadoop批處理的天性以及大開銷所限,它并不適合進行數據集的實時分析。但將Hadoop 2.0與其他廠商所添加的新查詢引擎結合,這個問題也將得到有效的解決。
Impetus Technologies的首席架構師Sanjay Sharma表示,數據倉庫應用同樣涉及到海量數據處理,因此它是天生的Hadoop目標應用。那么多大的數據比較合適?Sharma認為10 TB左右是Hadoop的理想數據量,如果數據集組成非常復雜,那么這個數量還會有所下降。
像汽車導購類信息提供商Edmunds.com這樣的用戶,都部署了Hadoop以及相關技術來代替?zhèn)鹘y(tǒng)的數據倉庫。大多數企業(yè)的Hadoop集群往往被視為數據進入組織的一個緩沖區(qū)域,數據由MapReduce來進行“過濾”,轉換成為傳統(tǒng)的關系型數據,然后再導入到數據倉庫或者數據集市來進行分析。這種方式還提供了一定的靈活性,原始數據可以放在Hadoop系統(tǒng)中,需要進行分析的時候在用ETL進行處理。
Sharma把這種部署方式稱為“數據下游處理”,而另外一家研究機構的總裁Colin White則用更準確的方式進行了總結,即“業(yè)務煉油廠”。在今年發(fā)布的一項調查報告中,Gartner分析師Mark Beyer和Ted Friedman指出,使用Hadoop收集數據并為數據倉庫中分析數據做準備,這是目前最主流的大數據分析應用實踐。而在272個參與調查的用戶當中,有超過一半的用戶表示他們計劃在未來12個月進行這一工作。
從誕生伊始,Hadoop就吸引了無數軟件開發(fā)者在其基礎之上創(chuàng)建新的工具,來彌補自身所存在的諸多不足。比如HBase(分布式數據庫),Hive(基于SQL的數據倉庫),Pig(MapReduce中開發(fā)數據分析程序的高級語言)等。其他的一些支持項目現(xiàn)在也成為了Apache項目的一部分,比如Hadoop集群調配管理和監(jiān)控工具Ambari,NoSQL數據庫Cassandra以及針對大型分布式系統(tǒng)的可靠協(xié)調系統(tǒng)ZooKeeper等。
YARN為Hadoop 2.0帶來新活力
Hadoop 2.0目前已經統(tǒng)一稱為Hadoop 2,它已經進入越來越多人的視野當中。其中最重要的一部分就是YARN(Yet Another Resource Negotiator),這個更新的資源管理器能夠讓非MapReduce開發(fā)的應用運行在HDFS上。通過這種方式,YARN旨在解除Hadoop的批處理限制,同時提供與現(xiàn)有應用結構的向下兼容。
Cosentino表示,YARN是Hadoop 2.0的最重要發(fā)展,它能夠讓多種工作負載并發(fā)運行。Yahoo就是一個很好的例子,他們在YARN上部署了Storm復雜事件處理軟件,用來輔助把網站用戶行為數據過濾到Hadoop集群當中。
Hadoop 2還提供了在高可用方面的改進,新的特性能夠幫助用戶在HDFS上創(chuàng)建一個聯(lián)邦命名節(jié)點架構,而無需依靠一個單一的節(jié)點來控制整個集群。此外,它還添加了對Windows平臺的支持,配合大型廠商定制開發(fā)的各種實用工具,Hadoop在企業(yè)級層面上的應用將被看好。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03