99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀運營商數(shù)據(jù)分析挖掘在廣告行業(yè)的應(yīng)用
運營商數(shù)據(jù)分析挖掘在廣告行業(yè)的應(yīng)用
2015-12-01
收藏

運營商數(shù)據(jù)分析挖掘在廣告行業(yè)的應(yīng)用

在前兩天的分享中,同事提到了,目前廣告行業(yè)正在經(jīng)歷一場深刻的變革,由‘注重觸達(dá)’轉(zhuǎn)為‘注重精準(zhǔn)營銷’,有‘單向營銷’轉(zhuǎn)為‘互動營銷’。

實時上,這場變革對廣告技術(shù)影響也非常深刻----直接導(dǎo)致了‘搜索、推薦、廣告’三個技術(shù)趨于融合。

為什么會導(dǎo)致這一趨勢呢?因為這場變革的核心是對用戶的理解,是通過數(shù)據(jù)分析師的數(shù)據(jù)來快速解讀用戶。簡單說,品牌類廣告是‘轟炸用戶’,效果類廣告是‘迎合用戶’。

下面我們"數(shù)據(jù)分析師"簡單看一下在擁有不同的數(shù)據(jù)源時,如何做到‘迎合用戶’

第一種:我稱之為‘算命先生’,這里的算命先生可是褒義詞,算命算的好,里面的學(xué)問大的很。算命先生主要是收集當(dāng)事人的當(dāng)前信息,以及所有人的統(tǒng)計信息。主要用到統(tǒng)計學(xué)相關(guān)知識。

在DSP里,單純根據(jù)流量數(shù)據(jù)和效果監(jiān)測數(shù)據(jù)來投放,就屬于這種方式。即:看一下效果好的人,當(dāng)初看廣告時是在哪兒看的,看的什么內(nèi)容,什么時候看的,用什么瀏覽器看的等,來決定下次我們還在這個時間段,這個網(wǎng)頁上,給使用這個瀏覽器的人投放。

第二種:我稱之為‘管中窺豹’,即通過布碼,來捕獲用戶的部分離散的網(wǎng)絡(luò)行為。比如,我在某個看照片分享網(wǎng)站上有布碼,我可以給到過這個網(wǎng)站上的人投放相機廣告等。

布碼范圍大了以后,甚至可以將這些離散的行為點串連起來,獲取到用戶的行為軌跡,從而分析用戶特征,以此作為廣告投放依據(jù)。

但是,布碼對站長來說,相當(dāng)與在自己家里放了個別人的攝像頭,所以稍大一點的網(wǎng)站對布碼都是有些抵觸的。想在各大電商,搜索引擎等流量巨大的站點上布碼,幾乎是不太可能的。因此,通過布碼獲取到的用戶行為只能是一些離散的行為。這種方式對用戶的分析是有限的。

問題1:布碼指的是打點么?

嘉賓回答:就是將自己的代碼加載到客戶的網(wǎng)站上,常見的有圖片布碼:即客戶的網(wǎng)站上加入一個1像素的隱藏圖片,用戶訪問網(wǎng)站時,瀏覽器發(fā)送一個圖片請求到布碼者的服務(wù)器。

提問者:嗯,和打點日志差不多

嘉賓回答:這種對客戶站點影響較小,也是一般的客戶樂于接受的方式,缺點時對布碼者能獲取到的信息有限。

還有一種時js加碼,即客戶網(wǎng)站上加入布碼者的js代碼。這種方式布碼者可以獲取更多的信息,比如模擬客戶做cookiemapping, 但站長一般不太歡迎這種方式。

第三種:我稱之為‘盲人摸象’,即通過各種渠道購買數(shù)據(jù),比如從CDN廠商或其他渠道獲取數(shù)據(jù)。這部分?jǐn)?shù)據(jù)價值就很大了。通過這種方式甚至可以獲取到部分用戶的一段時間的連續(xù)行為。

這種方式的問題是:

(1)訪問記錄不全面(比如,CDN只有訪問緩存的數(shù)據(jù),域名服務(wù)商只有域名解析的數(shù)據(jù))

(2)數(shù)據(jù)量有限。不同的渠道獲取的都是局部的數(shù)據(jù),很難拿到省級以致全國級的數(shù)據(jù)。

(3)成本(數(shù)據(jù)關(guān)聯(lián)成本,對接成本)等

由于以上問題,這種方式數(shù)據(jù)分析師只能分析出局部特征

第四種:我稱之為‘科學(xué)預(yù)測’,數(shù)據(jù)分析師即通過運營商全量數(shù)據(jù),分析用戶的全網(wǎng)行為。并以此作為投放依據(jù)。也就是今天我們分享的方式。

通過以上分析,我們可以看出,在這場變革中數(shù)據(jù)分析師的‘?dāng)?shù)據(jù)’起到的巨大作用。

但是,單純的擁有數(shù)據(jù),并不一定是最后的贏家。必須掌握從沙子里提取出金子的技術(shù),才能真正享受數(shù)據(jù)的價值。

目前我們在廣告行業(yè)里,只涉及到DSP和DMP兩部分。我對這兩部分的理解是:DSP是身體,DMP是大腦。對于DSP,我們要求健康,敏捷。對大腦的要求是聰明,記性好。

先說一下DSP,前面同事也分享過了,在RTB流程里,ADExchange相當(dāng)于拍賣師,就是負(fù)責(zé)敲錘。DSP相當(dāng)與舉牌人,就是負(fù)責(zé)舉牌。DSP要快速評估價值,決定是否值的買,值的出多少錢買。DSP出價要‘快’,等到拍賣師敲錘后再想改就晚了。


DSP的要求看似簡單,但真正做到也是非常有技術(shù)挑戰(zhàn)的。單純說敏捷,在RTB的競拍流程中要求比現(xiàn)實中的要高多了?,F(xiàn)實中,拍賣師還要喊三次,在RTB中,只給了100毫秒的思考時間,這之中還包含網(wǎng)絡(luò)延遲等難以控制的因數(shù)。

再說健康,RTB中,一方面,ADExchange本身會考核DSP的健康情況,DSP要是出了問題,ADExchange會減少分給你的流量。你要老出問題,ADExchange就不帶你玩兒了。

另一邊,廣告主也盯著你的報表。某些時候,比如雙十一之前的投放時間,真是寸時寸金。另外,計費也是一個挑戰(zhàn),在RTB流程中,實時計費是必須的,實時就意味著不可以有半點錯誤。

這個是DSP的基本架構(gòu),其中的最核心是BidServer和CountServer,BidServer負(fù)責(zé)和ADExchange交互,要求拍賣時快速舉牌。CountServer是效果監(jiān)控服務(wù)器,要求仔細(xì)記好帳。

我們先看一下對競價核心的要求:

(1)及時準(zhǔn)確的出價

(2)敏捷的響應(yīng)變更

這里涉及到很多技術(shù)點,我在這里列舉一些:

一、層次分明的架構(gòu):ADExchange適配->流量控制->活動匹配->效果評估->智能出價。層次間相互解耦。一個穩(wěn)定的系統(tǒng),必然是一個簡單,層次分明的系統(tǒng)。

各層次見流量逐級篩檢,簡單的規(guī)則在前,復(fù)雜的規(guī)則在后,能排除大流量的規(guī)則在前,排除小流量的規(guī)則在后。

二、熱加載:每層都可以有多個實現(xiàn),根據(jù)需要動態(tài)加載實現(xiàn),不影響即有投放。昨天的分享中也提到,在DSP的各各環(huán)節(jié)中,有很多策略和算法需要調(diào)整。這些調(diào)整關(guān)系到‘錢是不是花在刀刃上’的問題,因此必須盡快的看到效果。效果好的要保留并繼續(xù)進(jìn)化,效果差的要及時查找原因或淘汰。要做到這些調(diào)整的快速響應(yīng),熱加載的支持是必不可少的。

三、共享內(nèi)存:數(shù)據(jù)及策略更新推送到共享內(nèi)存,實現(xiàn)更新的塊送響應(yīng)。運營人員制定的策略,推送服務(wù)器推送過來的最新余額,都通過共享內(nèi)存的方式給多個進(jìn)程共享。

四、數(shù)據(jù)結(jié)構(gòu)優(yōu)化:如通過紅黑樹實現(xiàn)快速索引。

五、通過tcpcopy,實現(xiàn)在線實時測試。通過tcpcopy,可以實時拷貝線上流量到測試環(huán)境,使用真實流量測試。

再說一下記費及報表涉及的技術(shù)點,這兩部分的要求都是:一要準(zhǔn)確,二要實時。

(1)通過基于內(nèi)存的KV數(shù)據(jù)庫redis實現(xiàn)實時記費。

(2)通過spark-streaming實現(xiàn)多維實時報表,快速反饋投放效果。

另外,為了提升效率,我們采用C語言實現(xiàn)的BidServer。其他部分則為了快速開發(fā)而采用了java,但java在存在大量對象引用時的GC表現(xiàn)會很糟糕,因此我們采用了mapdb直接內(nèi)存讀寫技術(shù)解決大量引用帶來的GC問題。

DSP里另外一個很重要的主題就是動態(tài)創(chuàng)意,靜態(tài)創(chuàng)意的種類是有限的,很難迎合所有客戶。只有通過動態(tài)創(chuàng)意,實現(xiàn)真正千人千面,才能真正做迎合用戶。

動態(tài)創(chuàng)意對DSP的要求相對會高一些,要自己提供播放代碼。由于這些代碼會在用戶瀏覽器上執(zhí)行,因此一定要保證代碼質(zhì)量。

另外,和靜態(tài)素材可以直接使用CDN加速不同,動態(tài)素材里包含靜態(tài)的可以加速的部分,還包括動態(tài)的不能加速的部分。必須細(xì)心區(qū)別對待。

前面我們也提到,廣告行業(yè)的這次變革對技術(shù)的影響中,其中之一是推薦技術(shù)在廣告行業(yè)的應(yīng)用。推薦技術(shù)進(jìn)入到廣告行業(yè)后主要就是應(yīng)用在動態(tài)創(chuàng)意上。通過推薦技術(shù)在廣告上展示用戶最關(guān)心的商品,可以大幅提升用戶點擊廣告的可能性。

動態(tài)創(chuàng)意要展示什么,需要在DMP對用戶的深入分析的基礎(chǔ)上,運用推薦相關(guān)算法如協(xié)同過濾做模型訓(xùn)練,才能使用。另外,dsp的流量篩選,用戶效果評估等,也需要有算法的支持。

這就涉及到DSP的中樞神經(jīng):算法平臺。

為什么我把它叫做中樞神經(jīng),而不是叫做大腦呢?。因為,真正的思考都是通過DMP做的。在算法平臺里只做模型匹配計算。

算法平臺是一個非常重要的模塊,各種算法在這里PK,最終產(chǎn)出一個最優(yōu)結(jié)果。這里涉及到的技術(shù)點也非常多,比如各種算法、交叉校驗、數(shù)據(jù)可視化等。

下面說一下DMP,簡單說,DMP要做三件事兒:

(1)擦亮眼睛

(2)長點記性

(3)動動腦子

DMP搭建在基于YARN的Spark集群之上,主要用到的技術(shù)是Spark-SQL,Spark-Streaming和MLLib。

下面,我們分開來說。

一、先說擦亮眼睛。

所謂擦亮眼睛,就是要能看到用戶到底做了什么事情。比如:用戶在什么時間,什么地方上網(wǎng),是在PC上還是通過手機上網(wǎng),是通過瀏覽器還是通過APP,是看新聞還是在購物還是在玩游戲,看新聞的話看的什么主題的新聞,購物的瀏覽了哪些商品,收藏了哪些商品,購買了哪些商品。玩游戲的話,玩兒的什么什么游戲。是否有充值行為,充值頻率等。

我們把這個功能稱為內(nèi)容識別,“數(shù)據(jù)分析師”將死板的流量日志,分析為活靈活現(xiàn)的用戶行為。這里涉及到的技術(shù)點也挺多的,比如新聞的語義分析,主題詞提取。商品的爬取和分類,APP的識別,以及APP內(nèi)行為的識別等。內(nèi)容識別是后續(xù)分析的基礎(chǔ),內(nèi)容識別是需要不斷投入精力去完善的核心功能。在這里靈活運用相關(guān)各種機器學(xué)習(xí)算法的應(yīng)用也可以很大程度上彌補人力的不足。

還有一點需要注意的是,由于運營商的數(shù)據(jù)是全量的網(wǎng)絡(luò)數(shù)據(jù),其中既有用戶直接的點擊行為產(chǎn)生的日志,也有頁面ajax自己更新頁面數(shù)據(jù)的日志,還有應(yīng)用程序甚至是爬蟲爬取網(wǎng)頁的日志。日志產(chǎn)生的根源到底是那種方式產(chǎn)生的,必須要能識別清楚。不然,不斷自己刷新的頁面,你可能會誤認(rèn)為用戶很關(guān)心這個頁面而多次訪問。

二、我們再說一下第二點,即長點記性。

所謂長點記性,就是說這個人第一次出現(xiàn)你不認(rèn)識,第二次出現(xiàn)你就要認(rèn)識它了。現(xiàn)實生活中,一些評價不錯的便利店,店員都會記住老主顧,老主顧來了會主動提醒他說你要的那個啥啥啥今天缺貨,或者啥啥啥到貨了。在做數(shù)據(jù)分析時,也要識別出哪些行為是一個人,以便給出這個人的特征

有些人可能疑惑了,運營商數(shù)據(jù)不是天然就能區(qū)分開不同的人嗎?在一定程度上是這樣的,比如通過寬帶上網(wǎng)帳號AD,我們可以鎖定一個家庭,通過imei,基本可以鎖定一個手機。

但是,問題是這些標(biāo)示都是設(shè)備級的。一個家里可能好幾個人上網(wǎng),甚至很多公司是幾百上千人共用一個AD帳號上網(wǎng)。對于移動數(shù)據(jù),很多山寨機的imei是相同的。從另外的角度說一個人也可能在多個AD帳號下上網(wǎng),比如在家里和公司。一個人也可能擁有多部手機。

所以,用戶識別是非常重要的,而且難度非常大。而誤識別的影響也非常大,如果將多個人的行為誤關(guān)聯(lián)到一個人,就可能會影響后續(xù)人的特征判斷,甚至影響到人群的模型訓(xùn)練。

如上圖所示,我們?nèi)绾螌⒂脩舨煌膖oken圈起來,鎖定這些token背后的自然人,是用戶識別要解決的核心問題。

我們解決這個問題的法寶有兩個,一個是通過cookie,將用一個AD帳號下的不同的人分開,另一個是通過用戶名,將不同AD帳號下的人關(guān)聯(lián)起來。

如何使用好cookie,也是一個比較復(fù)雜的問題。很多網(wǎng)站將cookie作為人或瀏覽器的標(biāo)示,但是又不全是。有些網(wǎng)站會把cookie單純當(dāng)作一個客戶端存儲來使用,比如通過cookie標(biāo)示用戶上次閱讀的那篇文章的哪個章節(jié)。所以必須要識別出哪個cookie是作為身份標(biāo)示的使用的。

如果全網(wǎng)的站點全部通過人工標(biāo)注,基本上是不可能的。我們采用統(tǒng)計規(guī)則和機器學(xué)習(xí)算法相互配合的方式,成功的識別出了大部分網(wǎng)站用作身份標(biāo)示的cookie。然后在這個基礎(chǔ)上人工篩查,做到了非常準(zhǔn)確的身份標(biāo)示cookie的識別。

cookie的另外一個問題就是不能跨站點,同一個人在不同站點上的cookie是不同的,如何同一個人在不同網(wǎng)站上的cookie關(guān)聯(lián)起來呢?

我們發(fā)現(xiàn),互聯(lián)網(wǎng)不是一個各各孤立的獨島,用戶訪問網(wǎng)站時,大部分也是通過點擊連接從一個站點到另外一個站點。比如通過百度搜索連接跳轉(zhuǎn)到新浪。而且很多站點都有嵌入其他站點的頁面或服務(wù),比如新浪頁面里有某個DSP的廣告等。

基于這個事實,我們可以通過referer樹,將多個站點的cookie關(guān)聯(lián)到一起。

當(dāng)然,refere樹并不是萬能的,很多熱門會有多人同時訪問,說以還需要加入很多規(guī)則,這些規(guī)則的梳理,同樣需要訓(xùn)練加人工的方式。

三、對DMP的第三點要求,即動動腦子。

即結(jié)合各種算法,找出每個人的特征,每個商品的特征,每個APP的特征,每個網(wǎng)站的特征等,并分析人與人之間的關(guān)系,人與商品之間的關(guān)系,人與APP之間的關(guān)系,人與網(wǎng)站之間的關(guān)系等。通過這些關(guān)系分析,來預(yù)測用戶下一步的行為。

這一部分的核心就是算法,也就是DMP被稱為大腦的主要原因。算法部分昨天同事已經(jīng)分享過了,今天我就不詳細(xì)說了。數(shù)據(jù)分析師培訓(xùn)

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }