99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)技術(shù)深觀察:從具體場景說開去
大數(shù)據(jù)技術(shù)深觀察:從具體場景說開去
2016-10-27
收藏


這幾年,隨著大數(shù)據(jù)技術(shù)的日益成熟,越來越多的公司和產(chǎn)品引入大數(shù)據(jù)技術(shù);同時(shí)也有越來越多的大數(shù)據(jù)技術(shù)、框架以及產(chǎn)品被推向市場;目前大數(shù)據(jù)產(chǎn)品市場已進(jìn)化到V3.0,產(chǎn)品繁多,數(shù)不勝數(shù)。


這個(gè)現(xiàn)象充分說明了大數(shù)據(jù)技術(shù)的發(fā)展速度之快和大家對該技術(shù)未來發(fā)展的信心;但這也給一個(gè)企業(yè)或者產(chǎn)品開發(fā)決策者帶來了更多的選擇困境。本文試圖從“用戶行為分析系統(tǒng)”的應(yīng)用場景出發(fā),結(jié)合技術(shù)落地過程的一些經(jīng)驗(yàn)和感受,給廣大的技術(shù)決策和愛好者一些親身的建議;當(dāng)然技術(shù)本身沒有好壞之分,只有適不適合之說,文中技術(shù)描述有不到位的地方,敬請指出,不勝感激。

丨應(yīng)用場景無處不在
用戶行為分析系統(tǒng)主要通過收集用戶的行為數(shù)據(jù)(功能使用信息、操作行為信息、按鈕點(diǎn)擊事件信息等等),會(huì)話加工、業(yè)務(wù)建模、數(shù)據(jù)分析甚至數(shù)據(jù)挖掘等業(yè)務(wù)技術(shù)流程來統(tǒng)計(jì)分析用戶的行為,形成各類統(tǒng)計(jì)指標(biāo)和分析結(jié)果供運(yùn)營決策。簡要流程見下方:


丨技術(shù)難題催生解決之道
在不同的階段,運(yùn)用的技術(shù)和方案也不盡相同。首先來看看在實(shí)踐過程中用到的一些技術(shù)和遇到的一些問題。

1.數(shù)據(jù)采集階段
在該階段由于涉及的數(shù)據(jù)來源方式的多樣性,如前端SDK發(fā)送、日志、數(shù)據(jù)庫等;各種方式的處理方法和技術(shù)不盡相同。

一般SDK技術(shù)由于客戶端的不同而不同,不在此處贅述。

日志文件數(shù)據(jù)的采集可通過推送或抓取兩種方向不同而方式不同,像公司的T2日志filterlog、java的log4j等均可以通過推送至數(shù)據(jù)接收端的方式進(jìn)行,市面上主要的技術(shù)是由flume/flume-ng(高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng))采集至kafka來解決或ELK(elasticsearch+logstash+kibana)來解決。

但是這兩種方案主要存在的問題是對前端發(fā)送數(shù)據(jù)無法保證完整性和一致性,畢竟該方案在網(wǎng)絡(luò)閃斷、服務(wù)異常、超過上限閾值等情況下容易導(dǎo)致數(shù)據(jù)丟失,特別是需要有完整性需求時(shí)(如提供日志中心服務(wù)、日志文件還原服務(wù)等),需要慎重考慮;由于歷史遺留問題,需要建立對接產(chǎn)品的日志中心服務(wù),提供日志文件的存儲(chǔ)、還原及下載服務(wù),我們采用的更為保守的Socket雙向數(shù)據(jù)確認(rèn)服務(wù)來保證日志的完整性;也可做到有效控制對客戶機(jī)資源消耗的管控(當(dāng)然對數(shù)據(jù)一致性要求不是特別高的應(yīng)用場景,這幾種方案都是可以考慮的)。Socket雙向數(shù)據(jù)確認(rèn)服務(wù)主要處理流程見下方:

數(shù)據(jù)庫數(shù)據(jù)層面的數(shù)據(jù)采集根據(jù)數(shù)據(jù)庫的不同技術(shù)也不太相同,目前公司2.0業(yè)務(wù)使用較多的RDS(MYSQL)的數(shù)據(jù)采集可以考慮研發(fā)中心的斗轉(zhuǎn)星移產(chǎn)品;當(dāng)然,更為通用的解決技術(shù)如kettle也是可以考慮的技術(shù)之一,只是對于開發(fā)投入等會(huì)較前面的產(chǎn)品更為大一些。

2.數(shù)據(jù)接收階段
在數(shù)據(jù)接收階段,主要考慮的是高并發(fā)和高可用;這階段的技術(shù)主要通過kafka集群作為緩沖來解決這兩塊問題。當(dāng)然,前端通過SLB加后端多接收負(fù)載均衡來達(dá)到高可用;實(shí)時(shí)流式的數(shù)據(jù)應(yīng)用一般通過實(shí)時(shí)流式計(jì)算框架JStorm來實(shí)現(xiàn)。

Kafka主要有如下特點(diǎn)是一種分布式的,基于發(fā)布/訂閱的消息系統(tǒng)。主要設(shè)計(jì)目標(biāo)如下:
1、以時(shí)間復(fù)雜度為O(1)的方式提供消息持久化能力,即使對TB級以上數(shù)據(jù)也能保證常數(shù)時(shí)間的訪問性能。
2、高吞吐率。即使在非常廉價(jià)的商用機(jī)器上也能做到單機(jī)支持每秒100K條消息的傳輸。
3、支持Kafka Server間的消息分區(qū),及分布式消費(fèi),同時(shí)保證每個(gè)partition內(nèi)的消息順序傳輸。
4、同時(shí)支持離線數(shù)據(jù)處理和實(shí)時(shí)數(shù)據(jù)處理。

這里主要需要關(guān)注的點(diǎn)是:
1、kafka只能保證在同一個(gè)partition內(nèi)的消息順序傳輸,多個(gè)partition內(nèi)的消息無法保證順序傳輸;在需要順序傳輸需求時(shí)需要保證只使用一個(gè)partition;
2、SLB的負(fù)載均衡通常判斷后端服務(wù)是否存活的依據(jù)是后端端口是否存在,當(dāng)后端架設(shè)nginx等此類服務(wù)時(shí)需要特別小心,經(jīng)常會(huì)引發(fā)后端服務(wù)掛掉但nginx服務(wù)還存活時(shí),SLB無法正確進(jìn)行判斷進(jìn)而轉(zhuǎn)發(fā)至有效后端服務(wù)的情況。

3.數(shù)據(jù)存儲(chǔ)、建模、數(shù)據(jù)統(tǒng)計(jì)分析階段
hadoop大數(shù)據(jù)平臺(tái)主要的存儲(chǔ)數(shù)據(jù)格式/方式有hdfs、hbase、redis、es/solr等;hdfs主要在存儲(chǔ)的數(shù)據(jù)不需要更改的情況下使用,如日志文件等非結(jié)構(gòu)化數(shù)據(jù)等;hbase主要解決數(shù)據(jù)的可修改性和基于rowkey的快速查詢的應(yīng)用場景,當(dāng)然通常配合es/solr來優(yōu)化多字段查詢;es/solr主要作為小數(shù)據(jù)量內(nèi)存應(yīng)用的場景。

對于對象間的關(guān)系模型的存儲(chǔ),Neo4j圖形化數(shù)據(jù)庫是首選的解決方案。Neo4j是一個(gè)高性能的、NOSQL圖形數(shù)據(jù)庫,它將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)上而不是表中。Neo4j也可以被看作是一個(gè)高性能的圖引擎,該引擎具有成熟數(shù)據(jù)庫的所有特性。

程序員工作在一個(gè)面向?qū)ο蟮?、靈活的網(wǎng)絡(luò)結(jié)構(gòu)下而不是嚴(yán)格、靜態(tài)的表中——但是它們可以享受到具備完全的事務(wù)特性、企業(yè)級的數(shù)據(jù)庫的所有好處。Neo4j因其嵌入式、高性能、輕量級等優(yōu)勢,越來越受到關(guān)注。

它主要解決圖形數(shù)據(jù)結(jié)構(gòu)問題;在一個(gè)圖中包含兩種基本的數(shù)據(jù)類型:Nodes(節(jié)點(diǎn)) 和 Relationships(關(guān)系)。Nodes 和 Relationships 包含key/value形式的屬性。Nodes通過Relationships所定義的關(guān)系相連起來,形成關(guān)系型網(wǎng)絡(luò)結(jié)構(gòu)。


4.結(jié)果數(shù)據(jù)存儲(chǔ)、展示階段
這部分?jǐn)?shù)據(jù)通常需要結(jié)合最后的報(bào)表等展示系統(tǒng)的查詢特性,一般有關(guān)系型數(shù)據(jù)庫或者NOsql數(shù)據(jù)來承擔(dān)這樣的角色。基于Mysql的RDS或者是Mongodb、cassandra等都是不錯(cuò)的選擇。在多維度的較大結(jié)果數(shù)據(jù)的存儲(chǔ)上,mysql需要結(jié)合分庫分表方案,mongodb需要結(jié)合分區(qū)分片等技術(shù)。


丨用戶行為系統(tǒng)任重道遠(yuǎn)
一套安全、高可用、高靈活性的系統(tǒng)涉及的周邊需求和技術(shù)還有很多,比如硬件監(jiān)控、業(yè)務(wù)監(jiān)控、快速擴(kuò)展、高效部署、灰度升級等方面的需求結(jié)合SEE平臺(tái)、Azkaban、docker技術(shù)等不再擴(kuò)展描述。

上述的一些技術(shù)和應(yīng)用案例也只是基于用戶行為分析系統(tǒng)的實(shí)踐過程中的一些積累,就像文首描述的一樣,目前的技術(shù)更新和演進(jìn)越來越快,我們的用戶行為系統(tǒng)的實(shí)踐也僅僅只涵蓋了一小部分技術(shù)和內(nèi)容;在建設(shè)過程中踩過很多坑,填過很多坑;歡迎同行能夠提一些建設(shè)性的意見和建議,讓我們一起成長。

CDA大數(shù)據(jù)分析師就業(yè)班本周末開課,歡迎參加:

http://www.3lll3.cn/kecheng/7.html


數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }