99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)職業(yè)發(fā)展使用Hadoop處理大數(shù)據(jù),你需要了解它的優(yōu)點(diǎn)和缺點(diǎn)
使用Hadoop處理大數(shù)據(jù),你需要了解它的優(yōu)點(diǎn)和缺點(diǎn)
2016-06-23
收藏

使用Hadoop處理大數(shù)據(jù),你需要了解它的優(yōu)點(diǎn)和缺點(diǎn)

由于從各光伏電站采集的數(shù)據(jù)量較大,必須解決海量數(shù)據(jù)的查詢、分析的問(wèn)題。目前主要考慮兩種方式:

1. Hadoop大數(shù)據(jù)技術(shù);

2. Oracle(數(shù)據(jù)倉(cāng)庫(kù))+BI;

本文僅介紹hadoop的技術(shù)要應(yīng)用特征

Hadoop 基本介紹

hadoop是一個(gè)平臺(tái),是一個(gè)適合大數(shù)據(jù)的分布式存儲(chǔ)和計(jì)算的平臺(tái)。什么是分布式存儲(chǔ)?這就是后邊我們要講的hadoop核心之一HDFS(Hadoop Distributed File System);什么是分布式計(jì)算?這是我們后邊要講的hadoop另外一個(gè)重要的核心MapReduce。

hadoop的優(yōu)點(diǎn)一:低成本

hadoop本身是運(yùn)行在普通PC服務(wù)器組成的集群中進(jìn)行大數(shù)據(jù)的分發(fā)及處理工作的,這些服務(wù)器集群是可以支持?jǐn)?shù)千個(gè)節(jié)點(diǎn)的。

hadoop優(yōu)點(diǎn)二:高效性

這也是hadoop的核心競(jìng)爭(zhēng)優(yōu)勢(shì)所在,接受到客戶的數(shù)據(jù)請(qǐng)求后,hadoop可以在數(shù)據(jù)所在的集群節(jié)點(diǎn)上并發(fā)處理。

hadoop優(yōu)點(diǎn)三:可靠性

通過(guò)分布式存儲(chǔ),hadoop可以自動(dòng)存儲(chǔ)多份副本,當(dāng)數(shù)據(jù)處理請(qǐng)求失敗后,會(huì)自動(dòng)重新部署計(jì)算任務(wù)。

hadoop優(yōu)點(diǎn)四:擴(kuò)展性

hadoop的分布式存儲(chǔ)分布式計(jì)算是在集群節(jié)點(diǎn)完成的,這也決定了hadoop可以擴(kuò)展至更多的集群節(jié)點(diǎn)。

hadoop安裝方式|hadoop部署方式

hadoop安裝方式只有三種:本地安裝;偽分布安裝;集群安裝。

Hadoop 適應(yīng)的場(chǎng)景

1:超大文件

可以是幾百M(fèi),幾百T這個(gè)級(jí)別的文件。

2:流式數(shù)據(jù)訪問(wèn)

Hadoop適用于一次寫入,多次讀取的場(chǎng)景,也就是數(shù)據(jù)復(fù)制進(jìn)去之后,長(zhǎng)時(shí)間在這些數(shù)據(jù)上進(jìn)行分析

3:商業(yè)硬件

也就是說(shuō)大街上到處都能買到的那種硬件,這樣的硬件故障率較高,所以要有很好的容錯(cuò)機(jī)制。

Hadoop 不適用的場(chǎng)景

1:低延遲數(shù)據(jù)訪問(wèn)

Hadoop設(shè)計(jì)的目的是大吞吐量,所以并沒(méi)有針對(duì)低延遲數(shù)據(jù)訪問(wèn)做一些優(yōu)化,如果要求低延遲, 可以看看Hbase

2:大量的小文件

由于NameNode把文件的MetaData存儲(chǔ)在內(nèi)存中,所以大量的小文件會(huì)產(chǎn)生大量的MetaData。這樣的話百萬(wàn)級(jí)別的文件數(shù)目還是可行的,再多的話就有問(wèn)題了。

3:多用戶寫入,任意修改

Hadoop現(xiàn)在還不支持多人寫入,任意修改的功能。也就是說(shuō)每次寫入都會(huì)添加在文件末尾。

Hadoop 業(yè)務(wù)場(chǎng)景(一)

在大數(shù)據(jù)背景下,Apache Hadoop已經(jīng)逐漸成為一種標(biāo)簽性,業(yè)界對(duì)于這一開(kāi)源分布式技術(shù)的了解也在不斷加深。但誰(shuí)才是Hadoop的最大用戶呢?首先想到的當(dāng)然是它的“發(fā)源 地”,像Google這樣的大型互聯(lián)網(wǎng)搜索引擎,以及Yahoo專門的廣告分析系統(tǒng)。也許你會(huì)認(rèn)為,Hadoop平臺(tái)發(fā)揮作用的領(lǐng)域是互聯(lián)網(wǎng)行業(yè),用來(lái)改 善分析性能并提高擴(kuò)展性。其實(shí)Hadoop的應(yīng)用場(chǎng)景遠(yuǎn)不止這一點(diǎn),深入挖掘的話你會(huì)發(fā)現(xiàn)Hadoop能夠在許多地方發(fā)揮巨大的作用。

美國(guó)著名科技博客GigaOM的專欄作家Derrick Harris跟蹤云計(jì)算Hadoop技術(shù)已有多年時(shí)間,他也在最近的一篇文章中總結(jié)了10個(gè)Hadoop的應(yīng)用場(chǎng)景,下面分享給大家:

在線旅游:目前全球范圍內(nèi)80%的在線旅游網(wǎng)站都是在使用Cloudera公司提供的Hadoop發(fā)行版,其中SearchBI網(wǎng)站曾經(jīng)報(bào)道過(guò)的Expedia也在其中。

移動(dòng)數(shù)據(jù):Cloudera運(yùn)營(yíng)總監(jiān)稱,美國(guó)有70%的智能手機(jī)數(shù)據(jù)服務(wù)背后都是由Hadoop來(lái)支撐的,也就是說(shuō),包括數(shù)據(jù)的存儲(chǔ)以及無(wú)線運(yùn)營(yíng)商的數(shù)據(jù)處理等,都是在利用Hadoop技術(shù)。

電子商務(wù):這一場(chǎng)景應(yīng)該是非常確定的,eBay就是最大的實(shí)踐者之一。國(guó)內(nèi)的電商在Hadoop技術(shù)上也是儲(chǔ)備頗為雄厚的。

能源開(kāi)采:美國(guó)Chevron公司是全美第二大石油公司,他們的IT部門主管介紹了Chevron使用Hadoop的經(jīng)驗(yàn),他們利用Hadoop進(jìn)行數(shù)據(jù)的收集和處理,其中這些數(shù)據(jù)是海洋的地震數(shù)據(jù),以便于他們找到油礦的位置。

節(jié)能:另外一家能源服務(wù)商Opower也在使用Hadoop,為消費(fèi)者提供節(jié)約電費(fèi)的服務(wù),其中對(duì)用戶電費(fèi)單進(jìn)行了預(yù)測(cè)分析。

基礎(chǔ)架構(gòu)管理:這是一個(gè)非?;A(chǔ)的應(yīng)用場(chǎng)景,用戶可以用Hadoop從服務(wù)器、交換機(jī)以及其他的設(shè)備中收集并分析數(shù)據(jù)。

圖像處理:創(chuàng)業(yè)公司Skybox Imaging 使用Hadoop來(lái)存儲(chǔ)并處理圖片數(shù)據(jù),從衛(wèi)星中拍攝的高清圖像中探測(cè)地理變化。

詐騙檢測(cè):這個(gè)場(chǎng)景用戶接觸的比較少,一般金融服務(wù)或者政府機(jī)構(gòu)會(huì)用到。利用Hadoop來(lái)存儲(chǔ)所有的客戶交易數(shù)據(jù),包括一些非結(jié)構(gòu)化的數(shù)據(jù),能夠幫助機(jī)構(gòu)發(fā)現(xiàn)客戶的異常活動(dòng),預(yù)防欺詐行為。

IT安全:除企業(yè)IT基礎(chǔ)機(jī)構(gòu)的管理之外,Hadoop還可以用來(lái)處理機(jī)器生成數(shù)據(jù)以便甄別來(lái)自惡意軟件或者網(wǎng)絡(luò)中的攻擊。

醫(yī)療保?。横t(yī)療行業(yè)也會(huì)用到Hadoop,像IBM的Watson就會(huì)使用Hadoop集群作為其服務(wù)的基礎(chǔ),包括語(yǔ)義分析等高級(jí)分析技術(shù)等。醫(yī)療機(jī)構(gòu)可以利用語(yǔ)義分析為患者提供醫(yī)護(hù)人員,并協(xié)助醫(yī)生更好地為患者進(jìn)行診斷

Hadoop 業(yè)務(wù)場(chǎng)景(二)

其實(shí)我們要知道大數(shù)據(jù)的實(shí)質(zhì)特性:針對(duì)增量中海量的結(jié)構(gòu)化,非結(jié)構(gòu)化,半結(jié)構(gòu)數(shù)據(jù),在這種情況下,如何快速反復(fù)計(jì)算挖掘出高效益的市場(chǎng)數(shù)據(jù)?

帶著這個(gè)問(wèn)題滲透到業(yè)務(wù)中去分析,就知道hadoop需要應(yīng)用到什么業(yè)務(wù)場(chǎng)景了?。。∪绻?a href='/map/guanxixingshujuku/' style='color:#000;font-size:inherit;'>關(guān)系型數(shù)據(jù)庫(kù)都能應(yīng)付的工作還需要hadoop嗎?

比如:

1.銀行的信用卡業(yè)務(wù),當(dāng)你正在刷卡完一筆消費(fèi)的那一瞬間,假如在你當(dāng)天消費(fèi)基礎(chǔ)上再消費(fèi)滿某個(gè)額度,你就可以免費(fèi)獲得某種令你非常滿意的利益等 等,你可能就會(huì)心動(dòng)再去消費(fèi),這樣就可能提高銀行信用卡業(yè)務(wù),那么這個(gè)消費(fèi)額度是如何從海量的業(yè)務(wù)數(shù)據(jù)中以秒級(jí)的速度計(jì)算出該客戶的消費(fèi)記錄,并及時(shí)反饋 這個(gè)營(yíng)銷信息到客戶手中呢?這時(shí)候關(guān)系型數(shù)據(jù)庫(kù)計(jì)算出這個(gè)額度或許就需要幾分鐘甚至更多時(shí)間,就需要hadoop了,這就是所謂的“秒級(jí)營(yíng)銷”. 針對(duì)真正的海量數(shù)據(jù),一般不主張多表關(guān)聯(lián)。

2. 在淘寶,當(dāng)你瀏覽某個(gè)商品的時(shí)候,它會(huì)及時(shí)提示出你感興趣的同類商品的產(chǎn)品信息和實(shí)時(shí)銷售情況,這或許也需要用到hadoop。

3. 就是報(bào)表用到的年度報(bào)告或者年度環(huán)比數(shù)據(jù)報(bào)告的時(shí)候也會(huì)用到hadoop去計(jì)算。

4.搜索引擎分析的時(shí)候應(yīng)該也會(huì)用到。一個(gè)網(wǎng)友說(shuō)過(guò),其實(shí)還是看big data能否帶來(lái)多大的效益!比如銀行在躺著都賺錢的情況下,big data不一定是銀行的項(xiàng)目. 況且hadoop是新興技術(shù),銀行業(yè)對(duì)新技術(shù)還是相對(duì)保守的。

hadoop 主要用于大數(shù)據(jù)的并行計(jì)算,并行計(jì)算按計(jì)算特征分為:

? 數(shù)據(jù)密集型并行計(jì)算:數(shù)據(jù)量極大,但是計(jì)算相對(duì)簡(jiǎn)單的并行處理。如:大規(guī)模Web信息搜索;

? 計(jì)算密集型并行計(jì)算:數(shù)據(jù)量相對(duì)不是很大,但是計(jì)算較為復(fù)雜的并行計(jì)算。如:3-D建模與渲染,氣象預(yù)報(bào),科學(xué)計(jì)算;

? 數(shù)據(jù)密集與計(jì)算密集混合型的并行計(jì)算。如:3-D電影的渲染;

hadoop比較擅長(zhǎng)的是數(shù)據(jù)密集的并行計(jì)算,它主要是對(duì)不同的數(shù)據(jù)做相同的事情,最后再整合。

我知道以及曾經(jīng)實(shí)驗(yàn)過(guò)的hadoop的例子有:

? wordCount (相當(dāng)于hadoop的HelloWorld的程序);

? 文檔倒排索引;

? PageRank;

? K-Means 算法;

這些程序都可以從網(wǎng)上找到相應(yīng)的解決方案。

hadoop的是根據(jù)Google MapReduce 提出的開(kāi)源版本。但是它的性能不是很好。

hadoop主要應(yīng)用于數(shù)據(jù)量大的離線場(chǎng)景。特征為:

1、數(shù)據(jù)量大。一般真正線上用Hadoop的,集群規(guī)模都在上百臺(tái)到幾千臺(tái)的機(jī)器。這種情況下,T級(jí)別的數(shù)據(jù)也是很小的。Coursera上一門課了有句話覺(jué)得很不錯(cuò):Don’t use hadoop, your data isn’t that big.

2、離線。Mapreduce框架下,很難處理實(shí)時(shí)計(jì)算,作業(yè)都以日志分析這樣的線下作業(yè)為主。另外,集群中一般都會(huì)有大量作業(yè)等待被調(diào)度,保證資源充分利用。

3、數(shù)據(jù)塊大。由于HDFS設(shè)計(jì)的特點(diǎn),Hadoop適合處理文件塊大的文件。大量的小文件使用Hadoop來(lái)處理效率會(huì)很低。舉個(gè)例子,百度每天都會(huì)有用戶對(duì)側(cè)邊欄廣告進(jìn)行點(diǎn)擊。這些點(diǎn)擊都會(huì)被記入日志。然后在離線場(chǎng)景下,將大量的日志使用Hadoop進(jìn)行處理,分析用戶習(xí)慣等信息。

MapReduce 的經(jīng)典案例

MapReduce的一個(gè)經(jīng)典實(shí)例是Hadoop。用于處理大型分布式數(shù)據(jù)庫(kù)。由于Hadoop關(guān)聯(lián)到云以及云部署,大多數(shù)人忽略了一點(diǎn),Hadoop有些屬性不適合一般企業(yè)的需求,特別是移動(dòng)應(yīng)用程序。下面是其中的一些特點(diǎn):

Hadoop的最大價(jià)值在于數(shù)據(jù)庫(kù),而Hadoop所用的數(shù)據(jù)庫(kù)是移動(dòng)應(yīng)用程序所用數(shù)據(jù)庫(kù)的10到1000倍。對(duì)于許多人來(lái)說(shuō),使用Hadoop就是殺雞用牛刀。

Hadoop有顯著的設(shè)置和處理開(kāi)銷。 Hadoop工作可能會(huì)需要幾分鐘的時(shí)間,即使相關(guān)數(shù)據(jù)量不是很大。

Hadoop在支持具有多維上下文數(shù)據(jù)結(jié)構(gòu)方面不是很擅長(zhǎng)。例如,一個(gè)定義給定地理變量值的記錄,然后使用垂直連接,來(lái)連續(xù)定義一個(gè)比hadoop使用的鍵值對(duì)定義更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)關(guān)系。

Hadoop必須使用迭代方法處理的問(wèn)題方面用處不大,尤其是幾個(gè)連續(xù)有依賴性步驟的問(wèn)題。

MapReduce (EMR),這是一項(xiàng)Hadoop服務(wù)。Hadoop旨在同期文件系統(tǒng)工作,以HDFS著稱。

當(dāng)用戶用EMR創(chuàng)建了一個(gè)Hadoop集群,他們可以從AWS S3(亞馬遜簡(jiǎn)單儲(chǔ)存服務(wù))或者一些其他的數(shù)據(jù)存儲(chǔ)復(fù)制數(shù)據(jù)到集群上的HDFS,或者也可以直接從S3訪問(wèn)數(shù)據(jù)。HDFS使用本地存儲(chǔ),而且通常提供了比從S3恢復(fù)更好的性能,但是在運(yùn)行Hadoop工作之前,也需要時(shí)間從S3復(fù)制數(shù)據(jù)到HDFS。如果EMR集群要運(yùn)行一段時(shí)間,且針對(duì)多項(xiàng)工作使用相同的數(shù)據(jù),可能值得額外的啟動(dòng)時(shí)間來(lái)從S3復(fù)制數(shù)據(jù)到HDFS


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }