99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀大數(shù)據(jù)技術(shù)深觀察:從具體場(chǎng)景說(shuō)開去
大數(shù)據(jù)技術(shù)深觀察:從具體場(chǎng)景說(shuō)開去
2016-10-27
收藏


這幾年,隨著大數(shù)據(jù)技術(shù)的日益成熟,越來(lái)越多的公司和產(chǎn)品引入大數(shù)據(jù)技術(shù);同時(shí)也有越來(lái)越多的大數(shù)據(jù)技術(shù)、框架以及產(chǎn)品被推向市場(chǎng);目前大數(shù)據(jù)產(chǎn)品市場(chǎng)已進(jìn)化到V3.0,產(chǎn)品繁多,數(shù)不勝數(shù)。


這個(gè)現(xiàn)象充分說(shuō)明了大數(shù)據(jù)技術(shù)的發(fā)展速度之快和大家對(duì)該技術(shù)未來(lái)發(fā)展的信心;但這也給一個(gè)企業(yè)或者產(chǎn)品開發(fā)決策者帶來(lái)了更多的選擇困境。本文試圖從“用戶行為分析系統(tǒng)”的應(yīng)用場(chǎng)景出發(fā),結(jié)合技術(shù)落地過(guò)程的一些經(jīng)驗(yàn)和感受,給廣大的技術(shù)決策和愛(ài)好者一些親身的建議;當(dāng)然技術(shù)本身沒(méi)有好壞之分,只有適不適合之說(shuō),文中技術(shù)描述有不到位的地方,敬請(qǐng)指出,不勝感激。

丨應(yīng)用場(chǎng)景無(wú)處不在
用戶行為分析系統(tǒng)主要通過(guò)收集用戶的行為數(shù)據(jù)(功能使用信息、操作行為信息、按鈕點(diǎn)擊事件信息等等),會(huì)話加工、業(yè)務(wù)建模、數(shù)據(jù)分析甚至數(shù)據(jù)挖掘等業(yè)務(wù)技術(shù)流程來(lái)統(tǒng)計(jì)分析用戶的行為,形成各類統(tǒng)計(jì)指標(biāo)和分析結(jié)果供運(yùn)營(yíng)決策。簡(jiǎn)要流程見(jiàn)下方:


丨技術(shù)難題催生解決之道
在不同的階段,運(yùn)用的技術(shù)和方案也不盡相同。首先來(lái)看看在實(shí)踐過(guò)程中用到的一些技術(shù)和遇到的一些問(wèn)題。

1.數(shù)據(jù)采集階段
在該階段由于涉及的數(shù)據(jù)來(lái)源方式的多樣性,如前端SDK發(fā)送、日志、數(shù)據(jù)庫(kù)等;各種方式的處理方法和技術(shù)不盡相同。

一般SDK技術(shù)由于客戶端的不同而不同,不在此處贅述。

日志文件數(shù)據(jù)的采集可通過(guò)推送或抓取兩種方向不同而方式不同,像公司的T2日志filterlog、java的log4j等均可以通過(guò)推送至數(shù)據(jù)接收端的方式進(jìn)行,市面上主要的技術(shù)是由flume/flume-ng(高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng))采集至kafka來(lái)解決或ELK(elasticsearch+logstash+kibana)來(lái)解決。

但是這兩種方案主要存在的問(wèn)題是對(duì)前端發(fā)送數(shù)據(jù)無(wú)法保證完整性和一致性,畢竟該方案在網(wǎng)絡(luò)閃斷、服務(wù)異常、超過(guò)上限閾值等情況下容易導(dǎo)致數(shù)據(jù)丟失,特別是需要有完整性需求時(shí)(如提供日志中心服務(wù)、日志文件還原服務(wù)等),需要慎重考慮;由于歷史遺留問(wèn)題,需要建立對(duì)接產(chǎn)品的日志中心服務(wù),提供日志文件的存儲(chǔ)、還原及下載服務(wù),我們采用的更為保守的Socket雙向數(shù)據(jù)確認(rèn)服務(wù)來(lái)保證日志的完整性;也可做到有效控制對(duì)客戶機(jī)資源消耗的管控(當(dāng)然對(duì)數(shù)據(jù)一致性要求不是特別高的應(yīng)用場(chǎng)景,這幾種方案都是可以考慮的)。Socket雙向數(shù)據(jù)確認(rèn)服務(wù)主要處理流程見(jiàn)下方:

數(shù)據(jù)庫(kù)數(shù)據(jù)層面的數(shù)據(jù)采集根據(jù)數(shù)據(jù)庫(kù)的不同技術(shù)也不太相同,目前公司2.0業(yè)務(wù)使用較多的RDS(MYSQL)的數(shù)據(jù)采集可以考慮研發(fā)中心的斗轉(zhuǎn)星移產(chǎn)品;當(dāng)然,更為通用的解決技術(shù)如kettle也是可以考慮的技術(shù)之一,只是對(duì)于開發(fā)投入等會(huì)較前面的產(chǎn)品更為大一些。

2.數(shù)據(jù)接收階段
在數(shù)據(jù)接收階段,主要考慮的是高并發(fā)和高可用;這階段的技術(shù)主要通過(guò)kafka集群作為緩沖來(lái)解決這兩塊問(wèn)題。當(dāng)然,前端通過(guò)SLB加后端多接收負(fù)載均衡來(lái)達(dá)到高可用;實(shí)時(shí)流式的數(shù)據(jù)應(yīng)用一般通過(guò)實(shí)時(shí)流式計(jì)算框架JStorm來(lái)實(shí)現(xiàn)。

Kafka主要有如下特點(diǎn)是一種分布式的,基于發(fā)布/訂閱的消息系統(tǒng)。主要設(shè)計(jì)目標(biāo)如下:
1、以時(shí)間復(fù)雜度為O(1)的方式提供消息持久化能力,即使對(duì)TB級(jí)以上數(shù)據(jù)也能保證常數(shù)時(shí)間的訪問(wèn)性能。
2、高吞吐率。即使在非常廉價(jià)的商用機(jī)器上也能做到單機(jī)支持每秒100K條消息的傳輸。
3、支持Kafka Server間的消息分區(qū),及分布式消費(fèi),同時(shí)保證每個(gè)partition內(nèi)的消息順序傳輸。
4、同時(shí)支持離線數(shù)據(jù)處理和實(shí)時(shí)數(shù)據(jù)處理。

這里主要需要關(guān)注的點(diǎn)是:
1、kafka只能保證在同一個(gè)partition內(nèi)的消息順序傳輸,多個(gè)partition內(nèi)的消息無(wú)法保證順序傳輸;在需要順序傳輸需求時(shí)需要保證只使用一個(gè)partition;
2、SLB的負(fù)載均衡通常判斷后端服務(wù)是否存活的依據(jù)是后端端口是否存在,當(dāng)后端架設(shè)nginx等此類服務(wù)時(shí)需要特別小心,經(jīng)常會(huì)引發(fā)后端服務(wù)掛掉但nginx服務(wù)還存活時(shí),SLB無(wú)法正確進(jìn)行判斷進(jìn)而轉(zhuǎn)發(fā)至有效后端服務(wù)的情況。

3.數(shù)據(jù)存儲(chǔ)、建模、數(shù)據(jù)統(tǒng)計(jì)分析階段
hadoop大數(shù)據(jù)平臺(tái)主要的存儲(chǔ)數(shù)據(jù)格式/方式有hdfs、hbase、redis、es/solr等;hdfs主要在存儲(chǔ)的數(shù)據(jù)不需要更改的情況下使用,如日志文件等非結(jié)構(gòu)化數(shù)據(jù)等;hbase主要解決數(shù)據(jù)的可修改性和基于rowkey的快速查詢的應(yīng)用場(chǎng)景,當(dāng)然通常配合es/solr來(lái)優(yōu)化多字段查詢;es/solr主要作為小數(shù)據(jù)量?jī)?nèi)存應(yīng)用的場(chǎng)景。

對(duì)于對(duì)象間的關(guān)系模型的存儲(chǔ),Neo4j圖形化數(shù)據(jù)庫(kù)是首選的解決方案。Neo4j是一個(gè)高性能的、NOSQL圖形數(shù)據(jù)庫(kù),它將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在網(wǎng)絡(luò)上而不是表中。Neo4j也可以被看作是一個(gè)高性能的圖引擎,該引擎具有成熟數(shù)據(jù)庫(kù)的所有特性。

程序員工作在一個(gè)面向?qū)ο蟮?、靈活的網(wǎng)絡(luò)結(jié)構(gòu)下而不是嚴(yán)格、靜態(tài)的表中——但是它們可以享受到具備完全的事務(wù)特性、企業(yè)級(jí)的數(shù)據(jù)庫(kù)的所有好處。Neo4j因其嵌入式、高性能、輕量級(jí)等優(yōu)勢(shì),越來(lái)越受到關(guān)注。

它主要解決圖形數(shù)據(jù)結(jié)構(gòu)問(wèn)題;在一個(gè)圖中包含兩種基本的數(shù)據(jù)類型:Nodes(節(jié)點(diǎn)) 和 Relationships(關(guān)系)。Nodes 和 Relationships 包含key/value形式的屬性。Nodes通過(guò)Relationships所定義的關(guān)系相連起來(lái),形成關(guān)系型網(wǎng)絡(luò)結(jié)構(gòu)。


4.結(jié)果數(shù)據(jù)存儲(chǔ)、展示階段
這部分?jǐn)?shù)據(jù)通常需要結(jié)合最后的報(bào)表等展示系統(tǒng)的查詢特性,一般有關(guān)系型數(shù)據(jù)庫(kù)或者NOsql數(shù)據(jù)來(lái)承擔(dān)這樣的角色?;贛ysql的RDS或者是Mongodb、cassandra等都是不錯(cuò)的選擇。在多維度的較大結(jié)果數(shù)據(jù)的存儲(chǔ)上,mysql需要結(jié)合分庫(kù)分表方案,mongodb需要結(jié)合分區(qū)分片等技術(shù)。


丨用戶行為系統(tǒng)任重道遠(yuǎn)
一套安全、高可用、高靈活性的系統(tǒng)涉及的周邊需求和技術(shù)還有很多,比如硬件監(jiān)控、業(yè)務(wù)監(jiān)控、快速擴(kuò)展、高效部署、灰度升級(jí)等方面的需求結(jié)合SEE平臺(tái)、Azkaban、docker技術(shù)等不再擴(kuò)展描述。

上述的一些技術(shù)和應(yīng)用案例也只是基于用戶行為分析系統(tǒng)的實(shí)踐過(guò)程中的一些積累,就像文首描述的一樣,目前的技術(shù)更新和演進(jìn)越來(lái)越快,我們的用戶行為系統(tǒng)的實(shí)踐也僅僅只涵蓋了一小部分技術(shù)和內(nèi)容;在建設(shè)過(guò)程中踩過(guò)很多坑,填過(guò)很多坑;歡迎同行能夠提一些建設(shè)性的意見(jiàn)和建議,讓我們一起成長(zhǎng)。

CDA大數(shù)據(jù)分析師就業(yè)班本周末開課,歡迎參加:

http://www.3lll3.cn/kecheng/7.html


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }