99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀微博商業(yè)數(shù)據(jù)挖掘方法
微博商業(yè)數(shù)據(jù)挖掘方法
2017-05-04
收藏

微博商業(yè)數(shù)據(jù)挖掘方法

本文主要介紹微博商業(yè)數(shù)據(jù)挖掘的體系及方法,但并不注重模型和算法這些細節(jié),而是闡述數(shù)據(jù)如何貼近、支持和引導業(yè)務,如何建立合理的評價體系,以及如何圍繞這兩點建設數(shù)據(jù)挖掘架構。

業(yè)務及產(chǎn)品

微博廣告生態(tài)的復雜程度在業(yè)界數(shù)一數(shù)二。由于微博本身的開放性,微博廣告客戶天生就有如下多樣性:

類型

電商類型:投放方式大多比較傳統(tǒng),投放目標主要是注冊或購買;

App類型:投放目標主要是App下載或者用戶喚醒;

O2O:投放目標包括電話、到店、銷售線索等;

媒體/品牌類:投放目標主要是帶粉,擴大影響力和傳播范圍。

投放方式

不同客戶對微博廣告產(chǎn)品這項營銷工具的理解和應用程度相去甚遠,有一部分客戶已經(jīng)能熟練使用不同的自助廣告產(chǎn)品,設置不同的創(chuàng)意模板,撰寫有針對性的創(chuàng)意來達到不同的營銷目的,甚至經(jīng)常使用時間和空間上的組合營銷形式,這些客戶通常效果較好,粘性也很強;但也有一部分客戶還停留在傳統(tǒng)聯(lián)盟廣告的時代,投放方式比較單一,對創(chuàng)意的生成欠缺足夠思考,效果也不盡人意。客戶梯度共同構成了微博廣告生態(tài),最直接的后果就是——優(yōu)秀的廣告與毫無吸引力的廣告并存。

定向要求

由于微博的強賬號屬性以及由此帶來的用戶畫像挖掘方面的潛力,客戶對廣告定向工具的要求非常精細。主要包括如下幾類定向條件:

基礎定向:用戶的年齡,性別,城市,手機型號等;

興趣定向:用戶感興趣的實體類目,甚至興趣關鍵詞;

關系定向:指定大號或競品的粉絲投放;

狀態(tài)定向:指定處于某一人生狀態(tài)的用戶,比如車房、婚戀階段;

情景定向:一類粒度非常細的實時觸發(fā)類投放,這類需求經(jīng)常來自于SCRM(社交客戶關系管理)之類的業(yè)務,譬如客戶可以指定投放給跟他的某條微博有互動的所有用戶,或是正在首都機場的所有用戶

圖1 廣告客戶對微博廣告的細分需求

微博推出了多種計算廣告產(chǎn)品來滿足多樣化需求,并且還在持續(xù)迭代和改進。每一種廣告產(chǎn)品專門抽象一大類投放需求,有不同的廣告模板、計費方式、定向條件、投放平臺以及專業(yè)人員配備。這是近兩年微博商業(yè)化順暢進行的主因。


圖2 主要微博廣告產(chǎn)品矩陣

商業(yè)數(shù)據(jù)體系

廣告投放業(yè)務對數(shù)據(jù)的需求主要是流量細分及描述反饋,因此微博商業(yè)數(shù)據(jù)挖掘體系也是以流量細分,即通常說的以用戶畫像為核心來建設。周邊輔助的數(shù)據(jù)挖掘模塊主要包括:

內(nèi)容挖掘:微博用戶的一切屬性都由他們的行為及其客體來描述,而這些用戶行為(包括轉發(fā)、評論、關注、贊、點擊短鏈/視頻)和客體(微博、廣告主、大號)構成了微博產(chǎn)品的絕大部分,因此內(nèi)容挖掘一直都是商業(yè)數(shù)據(jù)挖掘的重點工作。

關系挖掘:包括所有用戶跟客體對象之間聯(lián)系方式的挖掘。關系挖掘的難點主要是發(fā)現(xiàn)在每一個業(yè)務場景下,不同關系的產(chǎn)生對于廣告效果的意義及影響。

App數(shù)據(jù)挖掘:微博作為開放平臺接入了相當數(shù)量的第三方App,用戶使用這些App的行為記錄能幫助我們獲取他們作為自然人的信息,用于判斷用戶在實際生活中的某些狀態(tài)。另外,用戶的App喜好能夠直接幫助App類廣告進行投放。

LBS數(shù)據(jù)挖掘:微博的簽到數(shù)據(jù)能幫助判斷用戶的某些狀態(tài),同時也能滿足部分客戶在投放上的某些需求,比如O2O類的客戶會更加關心附近的本地用戶。

在長期業(yè)務實踐中,我們最終將用戶畫像體系分為如下3個部分:

基礎數(shù)據(jù):描述用戶的一些基本信息,包括年齡、性別、常駐城市、手機型號、活躍度等。大部分信息可以直接獲取或簡單統(tǒng)計獲取,有時需要對數(shù)據(jù)的準確性加以算法修正;

興趣數(shù)據(jù):主要描述“用戶對什么感興趣”;

情景數(shù)據(jù):主要描述“用戶是什么人”。

圖3 微博商業(yè)數(shù)據(jù)體系

用戶數(shù)據(jù)的計算有一套完整的高復用低耦合的數(shù)據(jù)模塊體系來支撐,最終成形的數(shù)據(jù)挖掘架構如圖4所示。

圖4 微博商業(yè)數(shù)據(jù)挖掘架構

評價體系

四層評價

微博商業(yè)數(shù)據(jù)挖掘工作第一大重點是評價體系的建設。據(jù)我們了解,這是很多數(shù)據(jù)挖掘部門忽視的地方。我們建立了一個四層級的評價體系:

1.效果級:挖掘的結果可以直接用線上廣告投放效果提升來評價。這是最強的一級評價。

示例:目前為止,只有興趣挖掘能夠使用這一級評價。

2.Ground Truth級:Ground Truth有一個規(guī)模足夠的數(shù)據(jù)集來當作標注集和交叉驗證的測試集,可以使用監(jiān)督學習算法來做分類。這個Ground Truth數(shù)據(jù)集被當作最終可信的評估標準,也用于交叉驗證。

示例:用戶性別。微博所有用戶都有自己填寫的性別屬性,但并非100%可信。但微博有很多實名認證的用戶,這部分用戶的性別是可信的,因此我們以這些用戶作為標注,來修正那些沒有實名認證的用戶性別數(shù)據(jù)。

3.Case級:不具備統(tǒng)計意義的標準數(shù)據(jù)集,即無法獲得標注數(shù)據(jù),但對于分類的結果,少部分能夠通過人工到微博用戶的頁面上去判斷是否準確。這種情況只能通過規(guī)則來挖掘。

示例:常住城市。挖掘用戶常住城市只能使用用戶的IBS信息及IP地址,其余的特征對這個標簽的貢獻度都極其有限,因此只能使用規(guī)則來判定,然后對規(guī)則分類的結果抽樣后,人工去用戶微博頁面上檢驗。只有大約5%的用戶能夠通過微博頁面(博文、照片等信息)來人工判斷他的常住城市。

4.Logic級:當以上三個級別的評價條件都不具備,只能評價邏輯完備性。即挖掘規(guī)則邏輯是否是當前情況下最合理的。

示例:差旅狀態(tài)。用戶當前位置不在常駐城市即判定為差旅狀態(tài),不做任何驗證(但不做任何驗證的情況極少,通常Case級和Logic級的評價很難完全分開,通常是偏Case或是偏Logic,總要同時看邏輯完備性和Case檢驗)。

圖5 數(shù)據(jù)挖掘四層評價

評價體系建設

對于評價有如下原則:

任何一項數(shù)據(jù)挖掘工作都必須在開展之前確定具體評價方法,并且讓這項工作的相關人員(包括PM)都知曉并認可這種評價方法。

盡可能把一項數(shù)據(jù)挖掘工作的評價方法往上一個層級推。

這是評價體系建設的重點,意味著不僅只有算法和模型工作可以不斷迭代,評價方法本身也可以迭代。這項工作的重要性可能比模型的研發(fā)還要重要,如果大部分工作的評價只能停留在Case級甚至Logic級的話,整個數(shù)據(jù)挖掘體系很快就會無以為繼,變得沒有意義,因為這種工作的迭代余地很小,且沒有方向。

我們花大量的時間解決Ground Truth數(shù)據(jù),方法一般有兩種:

引入第三方數(shù)據(jù)。這是一項長期進行的重要工作。任何互聯(lián)網(wǎng)平臺在數(shù)據(jù)上都有自己的長處和短板,微博的短板是缺少足夠細分垂直領域的用戶數(shù)據(jù)。因此一直致力于引入各種用戶現(xiàn)世數(shù)據(jù)和垂直領域數(shù)據(jù)。

在現(xiàn)有數(shù)據(jù)的基礎上用規(guī)則過濾正樣本。通過規(guī)則找到一個召回率較低但準確率很高的集合作為正樣本,就可以把評價推高到Ground Truth級。

除了興趣標簽外,能直接用效果來評價的數(shù)據(jù)并不多,而且業(yè)務層面的假設太多,我們在實踐中僅用來參考。例如性別數(shù)據(jù),對某些已知的強性別選擇的廣告行業(yè)(例如美妝),可以通過線上效果來間接判定數(shù)據(jù)準確率,但這種不夠直接的方法很少采用,因為中間因素太多,自洽性不強。

在這個評價體系下,數(shù)據(jù)工程師并不對興趣標簽之外挖掘結果的廣告效果負責。如果用戶使用了這些定向工具有好的效果,那很好,如果效果不好,數(shù)據(jù)工程師是不會就這個標簽本身來進行效果優(yōu)化的,因為這根本不是評價方向,這類標簽在業(yè)務中的位置不處于效果的反饋環(huán)上。工程師只對興趣標簽做效果優(yōu)化。

除興趣標簽之外的數(shù)據(jù)挖掘流程如圖6。

圖6 數(shù)據(jù)挖掘方法流程

興趣挖掘

興趣挖掘并沒有Ground Truth可以驗證,因為興趣本身就是一個非客觀、難以界定的描述。在微博商業(yè)體系內(nèi),興趣是如下定義的:

用戶如果對某類別的事物感興趣:用戶在指定廣告投放場景里對這類廣告的預估轉化概率/點擊率較高。

如果不能指定具體廣告投放場景,興趣的意思是:用戶對這類內(nèi)容的歷史關注/互動率較高。

在前一種情況下,興趣標簽是一個可預估的最優(yōu)化問題,是CTR/CVR預估體系的一部分,可以做出不同粒度的興趣標簽來,而且往往不止一套。如果有N種計算廣告產(chǎn)品,每種廣告產(chǎn)品可以有M種預定義的轉化行為,線上的興趣標簽理論上最多可以有N x M套。標簽數(shù)據(jù)的評價方式直接用線上效果評價,可以持續(xù)迭代。

在后一種情況下,興趣標簽只是一個解釋性問題,在評價體系里處于最底層,實際上無法迭代。但這種興趣標簽的存在是必要的,因為并不是所有的應用場景都是廣告投放,而且用特定產(chǎn)品的廣告數(shù)據(jù)訓練出的模型會比較偏,但某些場景(比如DMP的流量透視功能)需要一套不直接服務于投放效果、能完整描述用戶群體的標簽。因此我們根據(jù)關注和互動關系用簡單統(tǒng)計的方法生成一版通用的興趣標簽。它只要求可解釋性,所以規(guī)則越簡單越好。一般禁止使用層次分析法,因為它對任何一層的評價都沒有幫助。

內(nèi)容興趣

圖7 微博內(nèi)容興趣標簽計算

內(nèi)容興趣標簽提供給除應用家之外的廣告產(chǎn)品做定向工具。內(nèi)容興趣的做法如下:

劃定一個微博上提供內(nèi)容的大號列表,這個列表中用戶貢獻的原創(chuàng)內(nèi)容能覆蓋絕大多數(shù)被消費(閱讀、互動)的原創(chuàng)內(nèi)容。列表包括所有廣告主。我們稱這個列表為廣義客戶列表。

挖掘這些大號所提供內(nèi)容的領域關鍵詞,主要是相關性計算。

對這些大號進行聚類,然后人工整理聚類的結果,形成一個二級內(nèi)容分類樹。這個分類及領域關鍵詞被稱為大號的能力標簽。微博上不生產(chǎn)的內(nèi)容(比如工農(nóng)業(yè)行業(yè)信息)對微博廣告產(chǎn)品來說是無意義的,因此沒有采用人工預先給出分類體系的方法。

機器學習模型(FM或LR)來預估每個廣告產(chǎn)品中,用戶對每一類廣告產(chǎn)生目標行為的概率,如果高于某個閾值,即看做該用戶對該類別是有興趣的。這是用于具體廣告產(chǎn)品定向的做法。

在廣告運營工作中我們經(jīng)常針對某一個廣告主做專屬定向包,方法類似,只是特征是在用戶-廣告主這個粒度的。

如果需要不依賴具體廣告產(chǎn)品的通用數(shù)據(jù),直接統(tǒng)計每個用戶對大號的關注關系,如果用戶對某一類別的關注高于平均值,即看做對該類別是有興趣的。

App興趣

App興趣標簽是為應用家產(chǎn)品專門建立的。這項工作能夠比較完整地表現(xiàn)微博商業(yè)數(shù)據(jù)挖掘中解決問題的思路。

App興趣標簽是應用家CVR預估體系的一部分。CVR預估體系被建設成一個漏斗式的,特征的粒度從粗到細。App興趣標簽是用戶-App類別粒度的,模型中較多使用交叉特征,這一層的計算結果被包裝成定向工具給客戶使用;中間層的粒度是用戶-App,作為一個隱式定向存在;最后一層則是線上的CVR預估模型,特征粒度是用戶-廣告-上下文,計算結果直接參與Rank。

在做CVR預估之前有兩個數(shù)據(jù)問題。首先,應用家的功能支持廣告客戶指定效果目標行為:下載(推動沒有安裝這個App的用戶下載)和喚醒(推動安裝了這個App的用戶重新進入該App成為當天日活)。因此至少需要知道每個用戶是否安裝了這些App,才能比較精準地投放。

解決這個問題的方法是:

以微博已有的數(shù)據(jù)為基礎,引入第三方數(shù)據(jù),獲取盡可能多的用戶安裝App列表。

以1作為標注數(shù)據(jù),預估那些1沒有覆蓋到的用戶App安裝情況。

另一個問題是,要做CVR預估就必須獲取下載數(shù)據(jù)作為訓練標注。但微博無法跟蹤從廣告點擊跳轉出去的用戶后續(xù)行為(尤其是iOS環(huán)境下)。

解決的方法是:

跟第三方監(jiān)控公司合作,獲取部分客戶App后續(xù)下載數(shù)據(jù)。

以1作為標注數(shù)據(jù),預估那些1沒有覆蓋到的客戶App后續(xù)下載情況。

這兩個問題的解決方法如出一轍,都是先去找數(shù)據(jù),找不到的部分再預估。預估的結果可以結合交叉驗證,直接線上評價。

應用家數(shù)據(jù)挖掘體系如圖8。

圖8 App興趣標簽計算

情景挖掘

情景挖掘來源于一系列客戶需求。在業(yè)務溝通中,經(jīng)常接到客戶類似如下的需求:

經(jīng)常出入高級酒店和機場的用戶;

寶馬車主;

大學生;

在微博參與了某個指定話題(比如“#Angelababy大婚#”)的用戶。

這些需求看似零亂,實際上都屬于不同于“興趣”的另一類問題,它需要知道“用戶是什么人”。因此我們建設了情景挖掘體系來整合響應這類需求的工作。

圖9 情景挖掘體系

情景引擎

最早建立情景引擎是為了滿足某些DSP給大客戶做SCRM的需求??蛻粜枰\營社交網(wǎng)絡上的粉絲和潛在客戶,需要一些工具把消息分發(fā)給這些用戶,比如:

把廣告投放給微博里提及了“寶馬”的用戶;

發(fā)一條活動微博,然后把廣告投放給跟這條微博互動的用戶;

把廣告投放給剛剛關注奔馳的用戶。

針對這類需求我們實現(xiàn)了一個情景引擎,接入微博上所有主要用戶行為數(shù)據(jù),按行為類別(謂語行為)分類存儲,抽取出其中的對象(賓語個體),一個情景就定義為謂語+賓語,經(jīng)過一系列中間計算后,形成“用戶-情景列表”索引格式的數(shù)據(jù),實時更新到線上緩存供定向服務使用。

情景引擎用Storm接入實時數(shù)據(jù),計算后分鐘級別更新到線上緩存,大部分是工程問題。里面涉及到算法的地方主要有兩處:

數(shù)據(jù)清洗。接入的線上數(shù)據(jù)有垃圾流量,比如在話題區(qū)刷廣告的。需要建一個反垃圾模塊。

關系擴展。計算出來的情景-用戶列表通常會有極強的長尾分布,即頭部的情景占據(jù)海量用戶,但我們在廣告投放時希望大部分情景都能有相當數(shù)量的覆蓋用戶。因此會丟棄掉大部分長尾數(shù)據(jù),對分布的中間部分做基于相似性或相關性的算法擴充。

中長期情景挖掘

基于情景引擎長期積累的數(shù)據(jù),我們在上層建立了中長期情景標簽體系(對外稱為人生狀態(tài)標簽)。

人生狀態(tài)標簽體系一共有20多個標簽,涵蓋用戶的求學、旅行、車房、職業(yè)、婚戀、育兒等狀態(tài)。這些標簽都是各自獨立挖掘,挖掘的算法完全由其評價方法而定,并沒有通用方法,而評價方法完全取決于源數(shù)據(jù)情況。下面給出幾個例子:

大學生標簽:

根據(jù)發(fā)微博的內(nèi)容過濾出一個準確率比較高的大學生用戶集合(大學生在某些場景下發(fā)的微博會帶有區(qū)分度非常高的關鍵詞)。然后對16-25歲之間的用戶建模,特征主要包括關注特征、App使用特征,IBS特征。用過濾的用戶集合為正樣本,隨機取一個負樣本集合進行訓練。對所有16-25歲之間但不在樣本集合中的用戶進行預測,取一個預定的數(shù)量。

差旅標簽:

當前用戶的位置與用戶常駐城市不符,即看做用戶在差旅狀態(tài)。

豪車車主:

根據(jù)用戶行業(yè)/頭銜、影響力、社交關系等信息制定過濾策略。到用戶微博頁上人工驗證。

用預估的方法會有一個問題,即很難保證做出來的正樣本訓練集是無偏的。一般來說,能夠滿足某種過濾條件的數(shù)據(jù)總是有偏的,通常更偏向于更好更活躍的用戶。但在后期評估中發(fā)現(xiàn),只要注意在模型里盡量不使用規(guī)則里的那些特征,關系并不大。另外,訓練集偏向更好的用戶也不算大問題,因為計算結果本來就要求優(yōu)先保證更好的用戶,那些不活躍的、特征缺失嚴重的用戶對業(yè)務的影響相對不重要一些。

人生狀態(tài)標簽跟興趣標簽看上去有類似的地方,但從評價方式和應用出發(fā)點來看完全不同。例如,“用戶對嬰兒用品感興趣”跟“用戶是嬰兒父母”是兩回事。從廣告投放的角度出發(fā),我們從來不把這兩者混為一談,我們對前者的效果負責,但不對后者的效果負責。

另外,我們認為人生狀態(tài)標簽這樣的挖掘工作并非未來的方向,而是代表著一種傳統(tǒng)廣告業(yè)的思路。過多地依賴這種人能閱讀和理解的,但卻高度離散化的因素并非計算廣告的思維方式。但這不意味著這樣的工作沒有意義,在新媒體廣告領域,它在相當長的時期內(nèi)都是必須存在的。

小結

在長期實踐中,我們總結出數(shù)據(jù)挖掘工作中最重要的兩點是:緊貼業(yè)務,確定評價。不能做到這兩點的數(shù)據(jù)挖掘團隊通常會工作得比較困難,做很多無用功。

緊貼業(yè)務意味著數(shù)據(jù)團隊要從業(yè)務KPI中拆分出自己能貢獻的一部分,這一部分能直接評價就不要間接評價,因此問題又回到評價上,這是數(shù)據(jù)工作的核心。

評價體系的建設是一項容易被忽視的重要工作,它包括評價方法和流程的建立和迭代,評價數(shù)據(jù)的獲取和制作。其中數(shù)據(jù)獲取必須要長期進行,現(xiàn)在業(yè)界數(shù)據(jù)合作及打通已經(jīng)變成一種趨勢,大家能夠通過合作來獲取自己缺乏的數(shù)據(jù),只靠自己的數(shù)據(jù)很難把工作做完整。

微博在產(chǎn)品創(chuàng)新和商業(yè)化的道路上已經(jīng)走了很久,試錯和踩坑都不計其數(shù),在利用自身優(yōu)勢基礎上的內(nèi)外部積累也開展得比較早,因此在數(shù)據(jù)挖掘領域足夠接地氣,足夠開放,數(shù)據(jù)工作自身才能做得非常活,同時支持和引導廣告業(yè)務的發(fā)展。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }