Hadoop是一個開源軟件框架,用于存儲大量數(shù)據(jù),并發(fā)處理/查詢在具有多個商用硬件(即低成本硬件)節(jié)點的集群上的那些數(shù)據(jù)??傊?,Hadoop包括以下內(nèi)容:
HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng)):HDFS允許你以一種分布式和冗余的方式存儲大量數(shù)據(jù)。例如,1 GB(即1024 MB)文本文件可以拆分為16 * 128MB文件,并存儲在Hadoop集群中的8個不同節(jié)點上。每個分裂可以復(fù)制3次,以實現(xiàn)容錯,以便如果1個節(jié)點故障的話,也有備份。HDFS適用于順序的“一次寫入、多次讀取”的類型訪問。

MapReduce:一個計算框架。它以分布式和并行的方式處理大量的數(shù)據(jù)。當(dāng)你對所有年齡> 18的用戶在上述1 GB文件上執(zhí)行查詢時,將會有“8個映射”函數(shù)并行運行,以在其128 MB拆分文件中提取年齡> 18的用戶,然后“reduce”函數(shù)將運行以將所有單獨的輸出組合成單個最終結(jié)果。
YARN(Yet Another Resource Nagotiator,又一資源定位器):用于作業(yè)調(diào)度和集群資源管理的框架。
Hadoop生態(tài)系統(tǒng),擁有15多種框架和工具,如Sqoop,F(xiàn)lume,Kafka,Pig,Hive,Spark,Impala等,以便將數(shù)據(jù)攝入HDFS,在HDFS中轉(zhuǎn)移數(shù)據(jù)(即變換,豐富,聚合等),并查詢來自HDFS的數(shù)據(jù)用于商業(yè)智能和分析。某些工具(如Pig和Hive)是MapReduce上的抽象層,而Spark和Impala等其他工具則是來自MapReduce的改進架構(gòu)/設(shè)計,用于顯著提高的延遲以支持近實時(即NRT)和實時處理。








暫無數(shù)據(jù)