
0基礎(chǔ)搭建Hadoop大數(shù)據(jù)處理-初識(shí)
在互聯(lián)網(wǎng)的世界中數(shù)據(jù)都是以TB、PB的數(shù)量級(jí)來(lái)增加的,特別是像BAT光每天的日志文件一個(gè)盤都不夠,更何況是還要基于這些數(shù)據(jù)進(jìn)行分析挖掘,更甚者還要實(shí)時(shí)進(jìn)行數(shù)據(jù)分析,學(xué)習(xí),如雙十一淘寶的交易量的實(shí)時(shí)展示。
大數(shù)據(jù)什么叫大?4個(gè)特征:
體量化 Volume,就是量大。
多樣化 Variety,可能是結(jié)構(gòu)型的數(shù)據(jù),也可能是非結(jié)構(gòu)行的文本,圖片,視頻,語(yǔ)音,日志,郵件等
快速化 Velocity,產(chǎn)生快,處理也需要快。
價(jià)值密度低 Value,數(shù)據(jù)量大,但單個(gè)數(shù)據(jù)沒(méi)什么意義,需要宏觀的統(tǒng)計(jì)體現(xiàn)其隱藏的價(jià)值。
可以看出想只要一臺(tái)強(qiáng)大的服務(wù)器來(lái)實(shí)時(shí)處理這種體量的數(shù)據(jù)那是不可能的,而且成本昂貴,代價(jià)相當(dāng)大,普通的關(guān)系型數(shù)據(jù)庫(kù)也隨著數(shù)據(jù)量的增大其處理時(shí)間也隨之增加,那客戶是不可能忍受的,所以我們需要Hadoop來(lái)解決此問(wèn)題。
優(yōu)點(diǎn):
Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶可以輕松地在Hadoop上開(kāi)發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):
高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非??臁?br />
高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。
低成本。與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開(kāi)源的,項(xiàng)目的軟件成本因此會(huì)大大降低。
Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢(shì)。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),對(duì)例如像ETL這樣的批處理操作相對(duì)合適,因?yàn)轭愃七@樣操作的批處理結(jié)果可以直接走向存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉(cāng)庫(kù)里。
Hadoop在各應(yīng)用中是最底層,最基礎(chǔ)的組件,所以其重要性不言而喻。
框架結(jié)構(gòu)
Hadoop主要由HDFS ( 分布式文件系統(tǒng))和MapReduce (并行計(jì)算框架)組成。
Hadoop 由許多元素構(gòu)成。其最底部是 Hadoop Distributed File System(HDFS),它存儲(chǔ) Hadoop 集群中所有存儲(chǔ)節(jié)點(diǎn)上的文件。HDFS(對(duì)于本文)的上一層是MapReduce 引擎,該引擎由 JobTrackers 和 TaskTrackers 組成。通過(guò)對(duì)Hadoop分布式計(jì)算平臺(tái)最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過(guò)程,以及數(shù)據(jù)倉(cāng)庫(kù)工具Hive和分布式數(shù)據(jù)庫(kù)Hbase的介紹,基本涵蓋了Hadoop分布式平臺(tái)的所有技術(shù)核心。
對(duì)外部客戶機(jī)而言,HDFS就像一個(gè)傳統(tǒng)的分級(jí)文件系統(tǒng)??梢詣?chuàng)建、刪除、移動(dòng)或重命名文件,等等。但是 HDFS 的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的,這是由它自身的特點(diǎn)決定的。這些節(jié)點(diǎn)包括 NameNode(僅一個(gè)),它在 HDFS 內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode,它為 HDFS 提供存儲(chǔ)塊。由于僅存在一個(gè) NameNode,因此這是 HDFS 的一個(gè)缺點(diǎn)(單點(diǎn)失敗)。
存儲(chǔ)在 HDFS 中的文件被分成塊,然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)。這與傳統(tǒng)的 RAID 架構(gòu)大不相同。塊的大?。ㄍǔ?64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode 可以控制所有文件操作。HDFS 內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的 TCP/IP 協(xié)議。
單節(jié)點(diǎn)物理結(jié)構(gòu)
主從結(jié)構(gòu)
主節(jié)點(diǎn),只有一個(gè): namenode
從節(jié)點(diǎn),有很多個(gè): datanodes
namenode負(fù)責(zé):接收用戶操作請(qǐng)求 、維護(hù)文件系統(tǒng)的目錄結(jié)構(gòu)、管理文件與block之間關(guān)系,block與datanode之間關(guān)系
NameNode 是一個(gè)通常在 HDFS 實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問(wèn)。
datanode負(fù)責(zé):存儲(chǔ)文件文件被分成block存儲(chǔ)在磁盤上、為保證數(shù)據(jù)安全,文件會(huì)有多個(gè)副本
MapReduce
MapReduce和Hadoop是相互獨(dú)立的,實(shí)際上又能相互配合工作得很好。
主從結(jié)構(gòu)
主節(jié)點(diǎn),只有一個(gè): JobTracker
從節(jié)點(diǎn),有很多個(gè): TaskTrackers
JobTracker負(fù)責(zé):接收客戶提交的計(jì)算任務(wù)、把計(jì)算任務(wù)分給TaskTrackers執(zhí)行、監(jiān)控TaskTracker的執(zhí)行情況
TaskTrackers負(fù)責(zé):執(zhí)行JobTracker分配的計(jì)算任務(wù)
Hadoop能做什么?
大數(shù)據(jù)量存儲(chǔ):分布式存儲(chǔ)
日志處理: Hadoop擅長(zhǎng)這個(gè)
海量計(jì)算: 并行計(jì)算
ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫(kù)
使用HBase做數(shù)據(jù)分析: 用擴(kuò)展性應(yīng)對(duì)大量的寫操作—Facebook構(gòu)建了基于HBase的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)
機(jī)器學(xué)習(xí): 比如Apache Mahout項(xiàng)目
搜索引擎:hadoop + lucene實(shí)現(xiàn)
數(shù)據(jù)挖掘:目前比較流行的廣告推薦
大量地從文件中順序讀。HDFS對(duì)順序讀進(jìn)行了優(yōu)化,代價(jià)是對(duì)于隨機(jī)的訪問(wèn)負(fù)載較高。
數(shù)據(jù)支持一次寫入,多次讀取。對(duì)于已經(jīng)形成的數(shù)據(jù)的更新不支持。
數(shù)據(jù)不進(jìn)行本地緩存(文件很大,且順序讀沒(méi)有局部性)
任何一臺(tái)服務(wù)器都有可能失效,需要通過(guò)大量的數(shù)據(jù)復(fù)制使得性能不會(huì)受到大的影響。
用戶細(xì)分特征建模
個(gè)性化廣告推薦
智能儀器推薦
擴(kuò)展
實(shí)際應(yīng)用:
Hadoop+HBase建立NoSQL分布式數(shù)據(jù)庫(kù)應(yīng)用
Flume+Hadoop+Hive建立離線日志分析系統(tǒng)
Flume+Logstash+Kafka+Spark Streaming進(jìn)行實(shí)時(shí)日志處理分析
酷狗音樂(lè)的大數(shù)據(jù)平臺(tái)
京東的智能供應(yīng)鏈預(yù)測(cè)系統(tǒng)
Hadoop的學(xué)習(xí)不僅僅是學(xué)習(xí)Hadoop,還要學(xué)習(xí)Linux,網(wǎng)絡(luò)知識(shí),Java、還有數(shù)據(jù)結(jié)構(gòu)和算法等等,所以萬(wàn)里長(zhǎng)征才開(kāi)始第一步,希望Hadoop學(xué)習(xí)不是從了解到放棄。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03