√天堂8资源中文在线,а√天堂www在线天堂小说,japan丰满人妻hdxxxx

291294878

2018-10-22 閱讀量: 1050

什么是Hadoop？

Hadoop是一個開源軟件框架，用于存儲大量數(shù)據(jù)，并發(fā)處理/查詢在具有多個商用硬件（即低成本硬件）節(jié)點的集群上的那些數(shù)據(jù)?？傊?，Hadoop包括以下內(nèi)容：

　　HDFS（Hadoop Distributed File System，Hadoop分布式文件系統(tǒng)）：HDFS允許你以一種分布式和冗余的方式存儲大量數(shù)據(jù)。例如，1 GB（即1024 MB）文本文件可以拆分為16 * 128MB文件，并存儲在Hadoop集群中的8個不同節(jié)點上。每個分裂可以復(fù)制3次，以實現(xiàn)容錯，以便如果1個節(jié)點故障的話，也有備份。HDFS適用于順序的“一次寫入、多次讀取”的類型訪問。

MapReduce：一個計算框架。它以分布式和并行的方式處理大量的數(shù)據(jù)。當(dāng)你對所有年齡> 18的用戶在上述1 GB文件上執(zhí)行查詢時，將會有“8個映射”函數(shù)并行運行，以在其128 MB拆分文件中提取年齡> 18的用戶，然后“reduce”函數(shù)將運行以將所有單獨的輸出組合成單個最終結(jié)果。

　　YARN（Yet Another Resource Nagotiator，又一資源定位器）：用于作業(yè)調(diào)度和集群資源管理的框架。

　　Hadoop生態(tài)系統(tǒng)，擁有15多種框架和工具，如Sqoop，F(xiàn)lume，Kafka，Pig，Hive，Spark，Impala等，以便將數(shù)據(jù)攝入HDFS，在HDFS中轉(zhuǎn)移數(shù)據(jù)（即變換，豐富，聚合等），并查詢來自HDFS的數(shù)據(jù)用于商業(yè)智能和分析。某些工具（如Pig和Hive）是MapReduce上的抽象層，而Spark和Impala等其他工具則是來自MapReduce的改進架構(gòu)/設(shè)計，用于顯著提高的延遲以支持近實時（即NRT）和實時處理。