在進行分布式架構(gòu)的學(xué)習(xí)前,首先需進行基礎(chǔ)環(huán)境準(zhǔn)備。眾所周知,在單機運算能力無法滿足處理海量數(shù)據(jù)的
運算能力時,人們普遍開始考慮使用分布式運算來代替單機運算,從而實現(xiàn)調(diào)動多臺物理機的計算資源為一個計算
目標(biāo)服務(wù)這一目標(biāo),進而解決單機運算能力瓶頸問題。當(dāng)然,這也成為了大數(shù)據(jù)分析和小數(shù)據(jù)分析最顯著的區(qū)別之
一——即使用的工具不同。而當(dāng)前大數(shù)據(jù)行業(yè)標(biāo)準(zhǔn)是使用Hadoop及其生態(tài)組件來執(zhí)行分布式處理,這也是我們的
學(xué)習(xí)目標(biāo)。
盡管分布式集群的主要目標(biāo)在于連接多臺的物理機,以達到整理運算能力線性增長的效果,在學(xué)習(xí)過程中,我們?nèi)?/p>
然可以在單臺物理機上模擬搭建和運行分布式集群。通常來說,單臺物理機上模擬分布式集群有兩種方法,其一是
利用Hadoop進行分進程的分布式模擬,即一般意義上的偽分布式,通常用于實驗和測試;其二則是利用虛擬化軟
件,將一臺物理機分為三臺虛擬物理機,然后搭建分布式集群。其中后者與實際工作情景無異,只不過在物理機本
身運算能力上有所差別,企業(yè)多用服務(wù)器級物理機,而在學(xué)習(xí)過程中個人電腦性能可能稍差。本教程將針對兩種分
布式集群搭建方法進行教學(xué),同時也將更加側(cè)重分布式集群的搭建。
盡管Apache Hadoop可適用于Windows、Linux和Mac OS操作系統(tǒng),但就其穩(wěn)定性而言,我們首推Linux系統(tǒng)或
Mac OS系統(tǒng),而二者相比選擇Linux系統(tǒng)適用面更為廣泛,因此本次教學(xué)我們將在Linux系統(tǒng)中安裝Hadoop。由
于個人用戶普遍使用Windows或Mac OS系統(tǒng),我們需要在當(dāng)前操作系統(tǒng)中虛擬一個Linux系統(tǒng),因此,虛擬化工
具就是我們需要掌握和使用的第一個軟件。除此之外,由于將要設(shè)計多個虛擬機的統(tǒng)一管理和多個終端的操作,因
此我們還需要掌握一些終端管理軟件和文件傳輸軟件的基本操作方法。這些軟件將在后面使用過程中進行詳細介
紹。








暫無數(shù)據(jù)