Hadoop是一個(gè)開源軟件框架,用于存儲(chǔ)大量數(shù)據(jù),并發(fā)處理/查詢?cè)诰哂卸鄠€(gè)商用硬件(即低成本硬件)節(jié)點(diǎn)的集群上的那些數(shù)據(jù)??傊?,Hadoop包括以下內(nèi)容:
HDFS(Hadoop Distributed File System,Hadoop分布式文件系統(tǒng)):HDFS允許你以一種分布式和冗余的方式存儲(chǔ)大量數(shù)據(jù)。例如,1 GB(即1024 MB)文本文件可以拆分為16 * 128MB文件,并存儲(chǔ)在Hadoop集群中的8個(gè)不同節(jié)點(diǎn)上。每個(gè)分裂可以復(fù)制3次,以實(shí)現(xiàn)容錯(cuò),以便如果1個(gè)節(jié)點(diǎn)故障的話,也有備份。HDFS適用于順序的“一次寫入、多次讀取”的類型訪問。

MapReduce:一個(gè)計(jì)算框架。它以分布式和并行的方式處理大量的數(shù)據(jù)。當(dāng)你對(duì)所有年齡> 18的用戶在上述1 GB文件上執(zhí)行查詢時(shí),將會(huì)有“8個(gè)映射”函數(shù)并行運(yùn)行,以在其128 MB拆分文件中提取年齡> 18的用戶,然后“reduce”函數(shù)將運(yùn)行以將所有單獨(dú)的輸出組合成單個(gè)最終結(jié)果。
YARN(Yet Another Resource Nagotiator,又一資源定位器):用于作業(yè)調(diào)度和集群資源管理的框架。
Hadoop生態(tài)系統(tǒng),擁有15多種框架和工具,如Sqoop,F(xiàn)lume,Kafka,Pig,Hive,Spark,Impala等,以便將數(shù)據(jù)攝入HDFS,在HDFS中轉(zhuǎn)移數(shù)據(jù)(即變換,豐富,聚合等),并查詢來自HDFS的數(shù)據(jù)用于商業(yè)智能和分析。某些工具(如Pig和Hive)是MapReduce上的抽象層,而Spark和Impala等其他工具則是來自MapReduce的改進(jìn)架構(gòu)/設(shè)計(jì),用于顯著提高的延遲以支持近實(shí)時(shí)(即NRT)和實(shí)時(shí)處理。








暫無數(shù)據(jù)