
使用Hadoop處理大數(shù)據(jù),你需要了解它的優(yōu)點(diǎn)和缺點(diǎn)
由于從各光伏電站采集的數(shù)據(jù)量較大,必須解決海量數(shù)據(jù)的查詢、分析的問(wèn)題。目前主要考慮兩種方式:
1. Hadoop大數(shù)據(jù)技術(shù);
2. Oracle(數(shù)據(jù)倉(cāng)庫(kù))+BI;
本文僅介紹hadoop的技術(shù)要應(yīng)用特征。
hadoop是一個(gè)平臺(tái),是一個(gè)適合大數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算的平臺(tái)。什么是分布式存儲(chǔ)?這就是后邊我們要講的hadoop核心之一HDFS(Hadoop Distributed File System);什么是分布式計(jì)算?這是我們后邊要講的hadoop另外一個(gè)重要的核心MapReduce。
hadoop的優(yōu)點(diǎn)一:低成本
hadoop本身是運(yùn)行在普通PC服務(wù)器組成的集群中進(jìn)行大數(shù)據(jù)的分發(fā)及處理工作的,這些服務(wù)器集群是可以支持?jǐn)?shù)千個(gè)節(jié)點(diǎn)的。
hadoop優(yōu)點(diǎn)二:高效性
這也是hadoop的核心競(jìng)爭(zhēng)優(yōu)勢(shì)所在,接受到客戶的數(shù)據(jù)請(qǐng)求后,hadoop可以在數(shù)據(jù)所在的集群節(jié)點(diǎn)上并發(fā)處理。
hadoop優(yōu)點(diǎn)三:可靠性
通過(guò)分布式存儲(chǔ),hadoop可以自動(dòng)存儲(chǔ)多份副本,當(dāng)數(shù)據(jù)處理請(qǐng)求失敗后,會(huì)自動(dòng)重新部署計(jì)算任務(wù)。
hadoop優(yōu)點(diǎn)四:擴(kuò)展性
hadoop的分布式存儲(chǔ)和分布式計(jì)算是在集群節(jié)點(diǎn)完成的,這也決定了hadoop可以擴(kuò)展至更多的集群節(jié)點(diǎn)。
hadoop安裝方式|hadoop部署方式
hadoop安裝方式只有三種:本地安裝;偽分布安裝;集群安裝。
1:超大文件
可以是幾百M(fèi),幾百T這個(gè)級(jí)別的文件。
2:流式數(shù)據(jù)訪問(wèn)
Hadoop適用于一次寫入,多次讀取的場(chǎng)景,也就是數(shù)據(jù)復(fù)制進(jìn)去之后,長(zhǎng)時(shí)間在這些數(shù)據(jù)上進(jìn)行分析。
3:商業(yè)硬件
也就是說(shuō)大街上到處都能買到的那種硬件,這樣的硬件故障率較高,所以要有很好的容錯(cuò)機(jī)制。
1:低延遲數(shù)據(jù)訪問(wèn)
Hadoop設(shè)計(jì)的目的是大吞吐量,所以并沒(méi)有針對(duì)低延遲數(shù)據(jù)訪問(wèn)做一些優(yōu)化,如果要求低延遲, 可以看看Hbase。
2:大量的小文件
由于NameNode把文件的MetaData存儲(chǔ)在內(nèi)存中,所以大量的小文件會(huì)產(chǎn)生大量的MetaData。這樣的話百萬(wàn)級(jí)別的文件數(shù)目還是可行的,再多的話就有問(wèn)題了。
3:多用戶寫入,任意修改
Hadoop現(xiàn)在還不支持多人寫入,任意修改的功能。也就是說(shuō)每次寫入都會(huì)添加在文件末尾。
在大數(shù)據(jù)背景下,Apache Hadoop已經(jīng)逐漸成為一種標(biāo)簽性,業(yè)界對(duì)于這一開(kāi)源分布式技術(shù)的了解也在不斷加深。但誰(shuí)才是Hadoop的最大用戶呢?首先想到的當(dāng)然是它的“發(fā)源 地”,像Google這樣的大型互聯(lián)網(wǎng)搜索引擎,以及Yahoo專門的廣告分析系統(tǒng)。也許你會(huì)認(rèn)為,Hadoop平臺(tái)發(fā)揮作用的領(lǐng)域是互聯(lián)網(wǎng)行業(yè),用來(lái)改 善分析性能并提高擴(kuò)展性。其實(shí)Hadoop的應(yīng)用場(chǎng)景遠(yuǎn)不止這一點(diǎn),深入挖掘的話你會(huì)發(fā)現(xiàn)Hadoop能夠在許多地方發(fā)揮巨大的作用。
美國(guó)著名科技博客GigaOM的專欄作家Derrick Harris跟蹤云計(jì)算和Hadoop技術(shù)已有多年時(shí)間,他也在最近的一篇文章中總結(jié)了10個(gè)Hadoop的應(yīng)用場(chǎng)景,下面分享給大家:
在線旅游:目前全球范圍內(nèi)80%的在線旅游網(wǎng)站都是在使用Cloudera公司提供的Hadoop發(fā)行版,其中SearchBI網(wǎng)站曾經(jīng)報(bào)道過(guò)的Expedia也在其中。
移動(dòng)數(shù)據(jù):Cloudera運(yùn)營(yíng)總監(jiān)稱,美國(guó)有70%的智能手機(jī)數(shù)據(jù)服務(wù)背后都是由Hadoop來(lái)支撐的,也就是說(shuō),包括數(shù)據(jù)的存儲(chǔ)以及無(wú)線運(yùn)營(yíng)商的數(shù)據(jù)處理等,都是在利用Hadoop技術(shù)。
電子商務(wù):這一場(chǎng)景應(yīng)該是非常確定的,eBay就是最大的實(shí)踐者之一。國(guó)內(nèi)的電商在Hadoop技術(shù)上也是儲(chǔ)備頗為雄厚的。
能源開(kāi)采:美國(guó)Chevron公司是全美第二大石油公司,他們的IT部門主管介紹了Chevron使用Hadoop的經(jīng)驗(yàn),他們利用Hadoop進(jìn)行數(shù)據(jù)的收集和處理,其中這些數(shù)據(jù)是海洋的地震數(shù)據(jù),以便于他們找到油礦的位置。
節(jié)能:另外一家能源服務(wù)商Opower也在使用Hadoop,為消費(fèi)者提供節(jié)約電費(fèi)的服務(wù),其中對(duì)用戶電費(fèi)單進(jìn)行了預(yù)測(cè)分析。
基礎(chǔ)架構(gòu)管理:這是一個(gè)非?;A(chǔ)的應(yīng)用場(chǎng)景,用戶可以用Hadoop從服務(wù)器、交換機(jī)以及其他的設(shè)備中收集并分析數(shù)據(jù)。
圖像處理:創(chuàng)業(yè)公司Skybox Imaging 使用Hadoop來(lái)存儲(chǔ)并處理圖片數(shù)據(jù),從衛(wèi)星中拍攝的高清圖像中探測(cè)地理變化。
詐騙檢測(cè):這個(gè)場(chǎng)景用戶接觸的比較少,一般金融服務(wù)或者政府機(jī)構(gòu)會(huì)用到。利用Hadoop來(lái)存儲(chǔ)所有的客戶交易數(shù)據(jù),包括一些非結(jié)構(gòu)化的數(shù)據(jù),能夠幫助機(jī)構(gòu)發(fā)現(xiàn)客戶的異常活動(dòng),預(yù)防欺詐行為。
IT安全:除企業(yè)IT基礎(chǔ)機(jī)構(gòu)的管理之外,Hadoop還可以用來(lái)處理機(jī)器生成數(shù)據(jù)以便甄別來(lái)自惡意軟件或者網(wǎng)絡(luò)中的攻擊。
醫(yī)療保?。横t(yī)療行業(yè)也會(huì)用到Hadoop,像IBM的Watson就會(huì)使用Hadoop集群作為其服務(wù)的基礎(chǔ),包括語(yǔ)義分析等高級(jí)分析技術(shù)等。醫(yī)療機(jī)構(gòu)可以利用語(yǔ)義分析為患者提供醫(yī)護(hù)人員,并協(xié)助醫(yī)生更好地為患者進(jìn)行診斷
其實(shí)我們要知道大數(shù)據(jù)的實(shí)質(zhì)特性:針對(duì)增量中海量的結(jié)構(gòu)化,非結(jié)構(gòu)化,半結(jié)構(gòu)數(shù)據(jù),在這種情況下,如何快速反復(fù)計(jì)算挖掘出高效益的市場(chǎng)數(shù)據(jù)?
帶著這個(gè)問(wèn)題滲透到業(yè)務(wù)中去分析,就知道hadoop需要應(yīng)用到什么業(yè)務(wù)場(chǎng)景了?。。∪绻?a href='/map/guanxixingshujuku/' style='color:#000;font-size:inherit;'>關(guān)系型數(shù)據(jù)庫(kù)都能應(yīng)付的工作還需要hadoop嗎?
比如:
1.銀行的信用卡業(yè)務(wù),當(dāng)你正在刷卡完一筆消費(fèi)的那一瞬間,假如在你當(dāng)天消費(fèi)基礎(chǔ)上再消費(fèi)滿某個(gè)額度,你就可以免費(fèi)獲得某種令你非常滿意的利益等 等,你可能就會(huì)心動(dòng)再去消費(fèi),這樣就可能提高銀行信用卡業(yè)務(wù),那么這個(gè)消費(fèi)額度是如何從海量的業(yè)務(wù)數(shù)據(jù)中以秒級(jí)的速度計(jì)算出該客戶的消費(fèi)記錄,并及時(shí)反饋 這個(gè)營(yíng)銷信息到客戶手中呢?這時(shí)候關(guān)系型數(shù)據(jù)庫(kù)計(jì)算出這個(gè)額度或許就需要幾分鐘甚至更多時(shí)間,就需要hadoop了,這就是所謂的“秒級(jí)營(yíng)銷”. 針對(duì)真正的海量數(shù)據(jù),一般不主張多表關(guān)聯(lián)。
2. 在淘寶,當(dāng)你瀏覽某個(gè)商品的時(shí)候,它會(huì)及時(shí)提示出你感興趣的同類商品的產(chǎn)品信息和實(shí)時(shí)銷售情況,這或許也需要用到hadoop。
3. 就是報(bào)表用到的年度報(bào)告或者年度環(huán)比數(shù)據(jù)報(bào)告的時(shí)候也會(huì)用到hadoop去計(jì)算。
4.搜索引擎分析的時(shí)候應(yīng)該也會(huì)用到。一個(gè)網(wǎng)友說(shuō)過(guò),其實(shí)還是看big data能否帶來(lái)多大的效益!比如銀行在躺著都賺錢的情況下,big data不一定是銀行的項(xiàng)目. 況且hadoop是新興技術(shù),銀行業(yè)對(duì)新技術(shù)還是相對(duì)保守的。
hadoop 主要用于大數(shù)據(jù)的并行計(jì)算,并行計(jì)算按計(jì)算特征分為:
? 數(shù)據(jù)密集型并行計(jì)算:數(shù)據(jù)量極大,但是計(jì)算相對(duì)簡(jiǎn)單的并行處理。如:大規(guī)模Web信息搜索;
? 計(jì)算密集型并行計(jì)算:數(shù)據(jù)量相對(duì)不是很大,但是計(jì)算較為復(fù)雜的并行計(jì)算。如:3-D建模與渲染,氣象預(yù)報(bào),科學(xué)計(jì)算;
? 數(shù)據(jù)密集與計(jì)算密集混合型的并行計(jì)算。如:3-D電影的渲染;
hadoop比較擅長(zhǎng)的是數(shù)據(jù)密集的并行計(jì)算,它主要是對(duì)不同的數(shù)據(jù)做相同的事情,最后再整合。
我知道以及曾經(jīng)實(shí)驗(yàn)過(guò)的hadoop的例子有:
? wordCount (相當(dāng)于hadoop的HelloWorld的程序);
? 文檔倒排索引;
? PageRank;
? K-Means 算法;
這些程序都可以從網(wǎng)上找到相應(yīng)的解決方案。
hadoop的是根據(jù)Google MapReduce 提出的開(kāi)源版本。但是它的性能不是很好。
hadoop主要應(yīng)用于數(shù)據(jù)量大的離線場(chǎng)景。特征為:
1、數(shù)據(jù)量大。一般真正線上用Hadoop的,集群規(guī)模都在上百臺(tái)到幾千臺(tái)的機(jī)器。這種情況下,T級(jí)別的數(shù)據(jù)也是很小的。Coursera上一門課了有句話覺(jué)得很不錯(cuò):Don’t use hadoop, your data isn’t that big.
2、離線。Mapreduce框架下,很難處理實(shí)時(shí)計(jì)算,作業(yè)都以日志分析這樣的線下作業(yè)為主。另外,集群中一般都會(huì)有大量作業(yè)等待被調(diào)度,保證資源充分利用。
3、數(shù)據(jù)塊大。由于HDFS設(shè)計(jì)的特點(diǎn),Hadoop適合處理文件塊大的文件。大量的小文件使用Hadoop來(lái)處理效率會(huì)很低。舉個(gè)例子,百度每天都會(huì)有用戶對(duì)側(cè)邊欄廣告進(jìn)行點(diǎn)擊。這些點(diǎn)擊都會(huì)被記入日志。然后在離線場(chǎng)景下,將大量的日志使用Hadoop進(jìn)行處理,分析用戶習(xí)慣等信息。
MapReduce的一個(gè)經(jīng)典實(shí)例是Hadoop。用于處理大型分布式數(shù)據(jù)庫(kù)。由于Hadoop關(guān)聯(lián)到云以及云部署,大多數(shù)人忽略了一點(diǎn),Hadoop有些屬性不適合一般企業(yè)的需求,特別是移動(dòng)應(yīng)用程序。下面是其中的一些特點(diǎn):
Hadoop的最大價(jià)值在于數(shù)據(jù)庫(kù),而Hadoop所用的數(shù)據(jù)庫(kù)是移動(dòng)應(yīng)用程序所用數(shù)據(jù)庫(kù)的10到1000倍。對(duì)于許多人來(lái)說(shuō),使用Hadoop就是殺雞用牛刀。
Hadoop有顯著的設(shè)置和處理開(kāi)銷。 Hadoop工作可能會(huì)需要幾分鐘的時(shí)間,即使相關(guān)數(shù)據(jù)量不是很大。
Hadoop在支持具有多維上下文數(shù)據(jù)結(jié)構(gòu)方面不是很擅長(zhǎng)。例如,一個(gè)定義給定地理變量值的記錄,然后使用垂直連接,來(lái)連續(xù)定義一個(gè)比hadoop使用的鍵值對(duì)定義更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)關(guān)系。
Hadoop必須使用迭代方法處理的問(wèn)題方面用處不大,尤其是幾個(gè)連續(xù)有依賴性步驟的問(wèn)題。
MapReduce (EMR),這是一項(xiàng)Hadoop服務(wù)。Hadoop旨在同期文件系統(tǒng)工作,以HDFS著稱。
當(dāng)用戶用EMR創(chuàng)建了一個(gè)Hadoop集群,他們可以從AWS S3(亞馬遜簡(jiǎn)單儲(chǔ)存服務(wù))或者一些其他的數(shù)據(jù)存儲(chǔ)復(fù)制數(shù)據(jù)到集群上的HDFS,或者也可以直接從S3訪問(wèn)數(shù)據(jù)。HDFS使用本地存儲(chǔ),而且通常提供了比從S3恢復(fù)更好的性能,但是在運(yùn)行Hadoop工作之前,也需要時(shí)間從S3復(fù)制數(shù)據(jù)到HDFS。如果EMR集群要運(yùn)行一段時(shí)間,且針對(duì)多項(xiàng)工作使用相同的數(shù)據(jù),可能值得額外的啟動(dòng)時(shí)間來(lái)從S3復(fù)制數(shù)據(jù)到HDFS。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03