
0基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-環(huán)境
由于Hadoop需要運(yùn)行在Linux環(huán)境中,而且是分布式的,因此個(gè)人學(xué)習(xí)只能裝虛擬機(jī),本文都以VMware Workstation為準(zhǔn),安裝CentOS7,具體的安裝此處不作過(guò)多介紹,只作需要用到的知識(shí)介紹。
VMware的安裝,裝好一個(gè)虛擬機(jī)后利用復(fù)制虛擬機(jī)的方式創(chuàng)建后面幾個(gè)虛擬機(jī),省時(shí)省力,需要注意的是需要修改每個(gè)虛擬機(jī)的IP與主機(jī)名。
所有虛擬機(jī)采用NAT模式上網(wǎng),而且要保證與物理主機(jī)的IP互相能訪問(wèn)。
需要注意的幾個(gè)問(wèn)題。nat如果上網(wǎng)首先需要查看物理機(jī)(pc機(jī))這個(gè)服務(wù)器已經(jīng)啟動(dòng)。上網(wǎng)的原理:流量是走的物理網(wǎng)卡,但是它的ip,卻是和物理機(jī)沒(méi)有關(guān)系的。也就是說(shuō),無(wú)論你怎么更換網(wǎng)絡(luò)環(huán)境,你的虛擬機(jī)都不需要做改變。這就是它的優(yōu)點(diǎn)。
首先在安裝VMware 之后,我們會(huì)看到多了兩個(gè)網(wǎng)卡
這個(gè)如果經(jīng)過(guò)網(wǎng)絡(luò)配置的折磨,應(yīng)該能找到著兩個(gè)網(wǎng)卡:vmnet1和vmnet8,這里講的是vmnet8。
重點(diǎn)看右側(cè)第三圖你會(huì)看到ip地址,這個(gè)ip地址,因個(gè)人而異,也就是說(shuō)不同網(wǎng)絡(luò),不同環(huán)境,這個(gè)ip變化的概率是很大的。可能是192.168.0.1等等。這里也相當(dāng)于我們編程的一個(gè)變量,這里是需要你根據(jù)你的環(huán)境來(lái)賦值的,建議vmnet1到vmnet8分別設(shè)置192.168.10.1到192.168.80.1,好作區(qū)分。
上面我們通過(guò)看到的虛擬機(jī)網(wǎng)卡的ip,為了避免混肴,上面的虛擬網(wǎng)卡和本地網(wǎng)絡(luò)適配器處于同一界面。如下圖
而下面則是在打開(kāi)虛擬機(jī)之后,通過(guò)菜單彈出
彈出之后,我們?cè)诳匆幌?a href='/map/xuniji/' style='color:#000;font-size:inherit;'>虛擬機(jī)的(交換機(jī))vmnet8.
可以看到vmnet8子網(wǎng)ip和虛擬機(jī)網(wǎng)卡是出于同一個(gè)網(wǎng)段的。
同時(shí)在右側(cè)net設(shè)置界面,我們可以看到網(wǎng)關(guān)為:192.168.106.2,改成192.168.80.2 虛擬機(jī)的設(shè)置會(huì)用到。
Linux基礎(chǔ)知識(shí)
Linux的學(xué)習(xí)也是一個(gè)過(guò)程,因?yàn)榭赡苣氵B最簡(jiǎn)單的開(kāi)機(jī)和關(guān)機(jī)命令都不會(huì),更不要談配置網(wǎng)絡(luò)。這里面給大家提供剛開(kāi)始學(xué)習(xí)所查閱的資料和經(jīng)驗(yàn)總結(jié)。
首先我們需要使用一些命令,進(jìn)行網(wǎng)絡(luò)配置,但是在網(wǎng)絡(luò)配置中,這里面又必須懂得虛擬機(jī)的一些知識(shí),所以前面的虛擬機(jī)知識(shí)需要掌握扎實(shí)一些。
在此注意CentOS7與CentOS6的命令有些不同,會(huì)一些常用命令是必備,每次開(kāi)機(jī)或啟動(dòng)解壓安裝授權(quán)都是最基本的知識(shí),其它的可以暫時(shí)不用學(xué)。
具體常用命令可參考 常備Linux命令
CentOS中安裝java環(huán)境
下載對(duì)應(yīng)32或64位jdk,設(shè)置好JDK環(huán)境變量PATH,具體的配置可自行Google。
環(huán)境準(zhǔn)備
修改機(jī)器名,每個(gè)系統(tǒng)中都要修改成這樣。
打開(kāi)終端,切換到root用戶(hù)下修改機(jī)器名稱(chēng)。
$ sudo su
$ vim /etc/sysconfig/network
在其中添加“HOSTNAME=H32”
添加每個(gè)服務(wù)器IP對(duì)應(yīng)的機(jī)器名
三個(gè)ip地址都添加到各自的/etc/hosts文件中
每個(gè)系統(tǒng)中都要修改成這樣
#編輯hosts vim /etc/hosts
關(guān)閉SELinux
#編輯 SELinux 配置文件 vim /etc/selinux/config #改狀態(tài) SELINUX=disabled
SSH設(shè)置
進(jìn)入H30,查看ssh是否安裝,如果有,繼續(xù),沒(méi)有安裝下。
關(guān)于ssh的安裝參考 :
如何實(shí)現(xiàn)兩臺(tái)服務(wù)器間無(wú)密碼的傳輸數(shù)據(jù)和操作
時(shí)間服務(wù)器安裝
這里需要安裝時(shí)間服務(wù)器,其他的服務(wù)器通過(guò)這個(gè)來(lái)進(jìn)行多機(jī)器時(shí)間的同步,分布式部署時(shí)機(jī)器時(shí)間不一致會(huì)導(dǎo)致數(shù)據(jù)錯(cuò)誤或組件內(nèi)通訊錯(cuò)誤。
安裝httpd服務(wù)
httpd是Apache超文本傳輸協(xié)議(HTTP)服務(wù)器的主程序。被設(shè)計(jì)為一個(gè)獨(dú)立運(yùn)行的后臺(tái)進(jìn)程,它會(huì)建立一個(gè)處理請(qǐng)求的子進(jìn)程或線程的池。
安裝yum-utils
yum install yum-utils 用于在線yum安裝 它是基於RPM包管理,能夠從指定的服務(wù)器自動(dòng)下載RPM包并且安裝,可以自動(dòng)處理依賴(lài)性關(guān)系,并且一次安裝所有依賴(lài)的軟體包,無(wú)須繁瑣地一次次下載、安裝。yum提供了查找、安裝、刪除某一個(gè)、一組甚至全部軟件包的命令,而且命令簡(jiǎn)潔而又好記。(需要機(jī)器能訪問(wèn)外網(wǎng))
準(zhǔn)備資源和環(huán)境
下載Centos 7.2 的iso安裝鏡像,jdk1.8 for Linux壓縮包,hadoop2.7.3壓縮包(本來(lái)用hadoop3,發(fā)現(xiàn)后面不兼容hive的最新版本)
Java基礎(chǔ)知識(shí)
由于Hadoop框架源碼都是以java來(lái)寫(xiě),因此最好都以java作為開(kāi)發(fā)的最佳語(yǔ)言,雖然說(shuō)有些用C#做了封裝,但性能已大打折扣。(這就是為什么說(shuō)Java的學(xué)大數(shù)據(jù)有很大的優(yōu)勢(shì),其它語(yǔ)言的還需要重新學(xué)習(xí)Java)
Eclipse IDE使用
Linux和Windows下源碼編譯技術(shù)
還有最重要的是你的網(wǎng)速要好,因?yàn)榘惭b過(guò)程中會(huì)下載依賴(lài)包,網(wǎng)不好會(huì)卡到你懷疑人生。
最后還需要有耐心,每臺(tái)機(jī)子的環(huán)境都不一樣,而且每個(gè)人下載的包的版本也有可能不一樣 會(huì)導(dǎo)致各種問(wèn)題,此時(shí)就需要耐心的去看日志,不停的嘗試和仔細(xì)的對(duì)比安裝步驟,可能就是少了個(gè)變量 或大小寫(xiě)錯(cuò)誤或是要重啟。
數(shù)據(jù)分析咨詢(xún)請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開(kāi)始提取前,需先判斷 TIF 文件的類(lèi)型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專(zhuān)業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專(zhuān)業(yè)操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開(kāi)發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤(pán)手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問(wèn)題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問(wèn)題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問(wèn)題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過(guò)程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶(hù)體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷(xiāo)案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見(jiàn)頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷(xiāo)成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類(lèi)分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類(lèi)分析作為 “無(wú)監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場(chǎng)景的分 ...
2025-09-10機(jī)器學(xué)習(xí)解決實(shí)際問(wèn)題的核心關(guān)鍵:從業(yè)務(wù)到落地的全流程解析 在人工智能技術(shù)落地的浪潮中,機(jī)器學(xué)習(xí)作為核心工具,已廣泛應(yīng)用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價(jià)值解析 在 SPSS(Statistical Product and Service Solutions,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案 ...
2025-09-09