精品国产美女av久久久久,大地影视mv高清视频在线观看

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

微博商業(yè)數(shù)據(jù)挖掘方法

2017-05-04

本文主要介紹微博商業(yè)數(shù)據(jù)挖掘的體系及方法，但并不注重模型和算法這些細節(jié)，而是闡述數(shù)據(jù)如何貼近、支持和引導業(yè)務，如何建立合理的評價體系，以及如何圍繞這兩點建設數(shù)據(jù)挖掘架構。

業(yè)務及產(chǎn)品

微博廣告生態(tài)的復雜程度在業(yè)界數(shù)一數(shù)二。由于微博本身的開放性，微博廣告客戶天生就有如下多樣性：

類型

電商類型：投放方式大多比較傳統(tǒng)，投放目標主要是注冊或購買；

App類型：投放目標主要是App下載或者用戶喚醒；

O2O：投放目標包括電話、到店、銷售線索等；

媒體/品牌類：投放目標主要是帶粉，擴大影響力和傳播范圍。

投放方式

不同客戶對微博廣告產(chǎn)品這項營銷工具的理解和應用程度相去甚遠，有一部分客戶已經(jīng)能熟練使用不同的自助廣告產(chǎn)品，設置不同的創(chuàng)意模板，撰寫有針對性的創(chuàng)意來達到不同的營銷目的，甚至經(jīng)常使用時間和空間上的組合營銷形式，這些客戶通常效果較好，粘性也很強；但也有一部分客戶還停留在傳統(tǒng)聯(lián)盟廣告的時代，投放方式比較單一，對創(chuàng)意的生成欠缺足夠思考，效果也不盡人意。客戶梯度共同構成了微博廣告生態(tài)，最直接的后果就是——優(yōu)秀的廣告與毫無吸引力的廣告并存。

定向要求

由于微博的強賬號屬性以及由此帶來的用戶畫像挖掘方面的潛力，客戶對廣告定向工具的要求非常精細。主要包括如下幾類定向條件：

基礎定向：用戶的年齡，性別，城市，手機型號等；

興趣定向：用戶感興趣的實體類目，甚至興趣關鍵詞；

關系定向：指定大號或競品的粉絲投放；

狀態(tài)定向：指定處于某一人生狀態(tài)的用戶，比如車房、婚戀階段；

情景定向：一類粒度非常細的實時觸發(fā)類投放，這類需求經(jīng)常來自于SCRM（社交客戶關系管理）之類的業(yè)務，譬如客戶可以指定投放給跟他的某條微博有互動的所有用戶，或是正在首都機場的所有用戶

圖1 廣告客戶對微博廣告的細分需求

微博推出了多種計算廣告產(chǎn)品來滿足多樣化需求，并且還在持續(xù)迭代和改進。每一種廣告產(chǎn)品專門抽象一大類投放需求，有不同的廣告模板、計費方式、定向條件、投放平臺以及專業(yè)人員配備。這是近兩年微博商業(yè)化順暢進行的主因。

圖2 主要微博廣告產(chǎn)品矩陣

商業(yè)數(shù)據(jù)體系

廣告投放業(yè)務對數(shù)據(jù)的需求主要是流量細分及描述反饋，因此微博商業(yè)數(shù)據(jù)挖掘體系也是以流量細分，即通常說的以用戶畫像為核心來建設。周邊輔助的數(shù)據(jù)挖掘模塊主要包括：

內(nèi)容挖掘：微博用戶的一切屬性都由他們的行為及其客體來描述，而這些用戶行為（包括轉發(fā)、評論、關注、贊、點擊短鏈/視頻）和客體（微博、廣告主、大號）構成了微博產(chǎn)品的絕大部分，因此內(nèi)容挖掘一直都是商業(yè)數(shù)據(jù)挖掘的重點工作。

關系挖掘：包括所有用戶跟客體對象之間聯(lián)系方式的挖掘。關系挖掘的難點主要是發(fā)現(xiàn)在每一個業(yè)務場景下，不同關系的產(chǎn)生對于廣告效果的意義及影響。

App數(shù)據(jù)挖掘：微博作為開放平臺接入了相當數(shù)量的第三方App，用戶使用這些App的行為記錄能幫助我們獲取他們作為自然人的信息，用于判斷用戶在實際生活中的某些狀態(tài)。另外，用戶的App喜好能夠直接幫助App類廣告進行投放。

LBS數(shù)據(jù)挖掘：微博的簽到數(shù)據(jù)能幫助判斷用戶的某些狀態(tài)，同時也能滿足部分客戶在投放上的某些需求，比如O2O類的客戶會更加關心附近的本地用戶。

在長期業(yè)務實踐中，我們最終將用戶畫像體系分為如下3個部分：

基礎數(shù)據(jù)：描述用戶的一些基本信息，包括年齡、性別、常駐城市、手機型號、活躍度等。大部分信息可以直接獲取或簡單統(tǒng)計獲取，有時需要對數(shù)據(jù)的準確性加以算法修正；

興趣數(shù)據(jù)：主要描述“用戶對什么感興趣”；

情景數(shù)據(jù)：主要描述“用戶是什么人”。

圖3 微博商業(yè)數(shù)據(jù)體系

用戶數(shù)據(jù)的計算有一套完整的高復用低耦合的數(shù)據(jù)模塊體系來支撐，最終成形的數(shù)據(jù)挖掘架構如圖4所示。

圖4 微博商業(yè)數(shù)據(jù)挖掘架構

評價體系

四層評價

微博商業(yè)數(shù)據(jù)挖掘工作第一大重點是評價體系的建設。據(jù)我們了解，這是很多數(shù)據(jù)挖掘部門忽視的地方。我們建立了一個四層級的評價體系：

1.效果級：挖掘的結果可以直接用線上廣告投放效果提升來評價。這是最強的一級評價。

示例：目前為止，只有興趣挖掘能夠使用這一級評價。

2.Ground Truth級：Ground Truth有一個規(guī)模足夠的數(shù)據(jù)集來當作標注集和交叉驗證的測試集，可以使用監(jiān)督學習算法來做分類。這個Ground Truth數(shù)據(jù)集被當作最終可信的評估標準，也用于交叉驗證。

示例：用戶性別。微博所有用戶都有自己填寫的性別屬性，但并非100%可信。但微博有很多實名認證的用戶，這部分用戶的性別是可信的，因此我們以這些用戶作為標注，來修正那些沒有實名認證的用戶性別數(shù)據(jù)。

3.Case級：不具備統(tǒng)計意義的標準數(shù)據(jù)集，即無法獲得標注數(shù)據(jù)，但對于分類的結果，少部分能夠通過人工到微博用戶的頁面上去判斷是否準確。這種情況只能通過規(guī)則來挖掘。

示例：常住城市。挖掘用戶常住城市只能使用用戶的IBS信息及IP地址，其余的特征對這個標簽的貢獻度都極其有限，因此只能使用規(guī)則來判定，然后對規(guī)則分類的結果抽樣后，人工去用戶微博頁面上檢驗。只有大約5%的用戶能夠通過微博頁面（博文、照片等信息）來人工判斷他的常住城市。

4.Logic級：當以上三個級別的評價條件都不具備，只能評價邏輯完備性。即挖掘規(guī)則邏輯是否是當前情況下最合理的。

示例：差旅狀態(tài)。用戶當前位置不在常駐城市即判定為差旅狀態(tài)，不做任何驗證（但不做任何驗證的情況極少，通常Case級和Logic級的評價很難完全分開，通常是偏Case或是偏Logic，總要同時看邏輯完備性和Case檢驗）。

圖5 數(shù)據(jù)挖掘四層評價

評價體系建設

對于評價有如下原則：

任何一項數(shù)據(jù)挖掘工作都必須在開展之前確定具體評價方法，并且讓這項工作的相關人員（包括PM）都知曉并認可這種評價方法。

盡可能把一項數(shù)據(jù)挖掘工作的評價方法往上一個層級推。

這是評價體系建設的重點，意味著不僅只有算法和模型工作可以不斷迭代，評價方法本身也可以迭代。這項工作的重要性可能比模型的研發(fā)還要重要，如果大部分工作的評價只能停留在Case級甚至Logic級的話，整個數(shù)據(jù)挖掘體系很快就會無以為繼，變得沒有意義，因為這種工作的迭代余地很小，且沒有方向。

我們花大量的時間解決Ground Truth數(shù)據(jù)，方法一般有兩種：

引入第三方數(shù)據(jù)。這是一項長期進行的重要工作。任何互聯(lián)網(wǎng)平臺在數(shù)據(jù)上都有自己的長處和短板，微博的短板是缺少足夠細分垂直領域的用戶數(shù)據(jù)。因此一直致力于引入各種用戶現(xiàn)世數(shù)據(jù)和垂直領域數(shù)據(jù)。

在現(xiàn)有數(shù)據(jù)的基礎上用規(guī)則過濾正樣本。通過規(guī)則找到一個召回率較低但準確率很高的集合作為正樣本，就可以把評價推高到Ground Truth級。

除了興趣標簽外，能直接用效果來評價的數(shù)據(jù)并不多，而且業(yè)務層面的假設太多，我們在實踐中僅用來參考。例如性別數(shù)據(jù)，對某些已知的強性別選擇的廣告行業(yè)（例如美妝），可以通過線上效果來間接判定數(shù)據(jù)準確率，但這種不夠直接的方法很少采用，因為中間因素太多，自洽性不強。

在這個評價體系下，數(shù)據(jù)工程師并不對興趣標簽之外挖掘結果的廣告效果負責。如果用戶使用了這些定向工具有好的效果，那很好，如果效果不好，數(shù)據(jù)工程師是不會就這個標簽本身來進行效果優(yōu)化的，因為這根本不是評價方向，這類標簽在業(yè)務中的位置不處于效果的反饋環(huán)上。工程師只對興趣標簽做效果優(yōu)化。

除興趣標簽之外的數(shù)據(jù)挖掘流程如圖6。

圖6 數(shù)據(jù)挖掘方法流程

興趣挖掘

興趣挖掘并沒有Ground Truth可以驗證，因為興趣本身就是一個非客觀、難以界定的描述。在微博商業(yè)體系內(nèi)，興趣是如下定義的：

用戶如果對某類別的事物感興趣：用戶在指定廣告投放場景里對這類廣告的預估轉化概率/點擊率較高。

如果不能指定具體廣告投放場景，興趣的意思是：用戶對這類內(nèi)容的歷史關注/互動率較高。

在前一種情況下，興趣標簽是一個可預估的最優(yōu)化問題，是CTR/CVR預估體系的一部分，可以做出不同粒度的興趣標簽來，而且往往不止一套。如果有N種計算廣告產(chǎn)品，每種廣告產(chǎn)品可以有M種預定義的轉化行為，線上的興趣標簽理論上最多可以有N x M套。標簽數(shù)據(jù)的評價方式直接用線上效果評價，可以持續(xù)迭代。

在后一種情況下，興趣標簽只是一個解釋性問題，在評價體系里處于最底層，實際上無法迭代。但這種興趣標簽的存在是必要的，因為并不是所有的應用場景都是廣告投放，而且用特定產(chǎn)品的廣告數(shù)據(jù)訓練出的模型會比較偏，但某些場景（比如DMP的流量透視功能）需要一套不直接服務于投放效果、能完整描述用戶群體的標簽。因此我們根據(jù)關注和互動關系用簡單統(tǒng)計的方法生成一版通用的興趣標簽。它只要求可解釋性，所以規(guī)則越簡單越好。一般禁止使用層次分析法，因為它對任何一層的評價都沒有幫助。

內(nèi)容興趣

圖7 微博內(nèi)容興趣標簽計算

內(nèi)容興趣標簽提供給除應用家之外的廣告產(chǎn)品做定向工具。內(nèi)容興趣的做法如下：

劃定一個微博上提供內(nèi)容的大號列表，這個列表中用戶貢獻的原創(chuàng)內(nèi)容能覆蓋絕大多數(shù)被消費（閱讀、互動）的原創(chuàng)內(nèi)容。列表包括所有廣告主。我們稱這個列表為廣義客戶列表。

挖掘這些大號所提供內(nèi)容的領域關鍵詞，主要是相關性計算。

對這些大號進行聚類，然后人工整理聚類的結果，形成一個二級內(nèi)容分類樹。這個分類及領域關鍵詞被稱為大號的能力標簽。微博上不生產(chǎn)的內(nèi)容（比如工農(nóng)業(yè)行業(yè)信息）對微博廣告產(chǎn)品來說是無意義的，因此沒有采用人工預先給出分類體系的方法。

用機器學習模型（FM或LR）來預估每個廣告產(chǎn)品中，用戶對每一類廣告產(chǎn)生目標行為的概率，如果高于某個閾值，即看做該用戶對該類別是有興趣的。這是用于具體廣告產(chǎn)品定向的做法。

在廣告運營工作中我們經(jīng)常針對某一個廣告主做專屬定向包，方法類似，只是特征是在用戶-廣告主這個粒度的。

如果需要不依賴具體廣告產(chǎn)品的通用數(shù)據(jù)，直接統(tǒng)計每個用戶對大號的關注關系，如果用戶對某一類別的關注高于平均值，即看做對該類別是有興趣的。

App興趣

App興趣標簽是為應用家產(chǎn)品專門建立的。這項工作能夠比較完整地表現(xiàn)微博商業(yè)數(shù)據(jù)挖掘中解決問題的思路。

App興趣標簽是應用家CVR預估體系的一部分。CVR預估體系被建設成一個漏斗式的，特征的粒度從粗到細。App興趣標簽是用戶-App類別粒度的，模型中較多使用交叉特征，這一層的計算結果被包裝成定向工具給客戶使用；中間層的粒度是用戶-App，作為一個隱式定向存在；最后一層則是線上的CVR預估模型，特征粒度是用戶-廣告-上下文，計算結果直接參與Rank。

在做CVR預估之前有兩個數(shù)據(jù)問題。首先，應用家的功能支持廣告客戶指定效果目標行為：下載（推動沒有安裝這個App的用戶下載）和喚醒（推動安裝了這個App的用戶重新進入該App成為當天日活）。因此至少需要知道每個用戶是否安裝了這些App，才能比較精準地投放。

解決這個問題的方法是：

以微博已有的數(shù)據(jù)為基礎，引入第三方數(shù)據(jù)，獲取盡可能多的用戶安裝App列表。

以1作為標注數(shù)據(jù)，預估那些1沒有覆蓋到的用戶App安裝情況。

另一個問題是，要做CVR預估就必須獲取下載數(shù)據(jù)作為訓練標注。但微博無法跟蹤從廣告點擊跳轉出去的用戶后續(xù)行為（尤其是iOS環(huán)境下）。

解決的方法是：

跟第三方監(jiān)控公司合作，獲取部分客戶App后續(xù)下載數(shù)據(jù)。

以1作為標注數(shù)據(jù)，預估那些1沒有覆蓋到的客戶App后續(xù)下載情況。

這兩個問題的解決方法如出一轍，都是先去找數(shù)據(jù)，找不到的部分再預估。預估的結果可以結合交叉驗證，直接線上評價。

應用家數(shù)據(jù)挖掘體系如圖8。

圖8 App興趣標簽計算

情景挖掘

情景挖掘來源于一系列客戶需求。在業(yè)務溝通中，經(jīng)常接到客戶類似如下的需求：

經(jīng)常出入高級酒店和機場的用戶；

寶馬車主；

大學生；

在微博參與了某個指定話題（比如“#Angelababy大婚#”）的用戶。

這些需求看似零亂，實際上都屬于不同于“興趣”的另一類問題，它需要知道“用戶是什么人”。因此我們建設了情景挖掘體系來整合響應這類需求的工作。

圖9 情景挖掘體系

情景引擎

最早建立情景引擎是為了滿足某些DSP給大客戶做SCRM的需求?？蛻粜枰\營社交網(wǎng)絡上的粉絲和潛在客戶，需要一些工具把消息分發(fā)給這些用戶，比如：

把廣告投放給微博里提及了“寶馬”的用戶；

發(fā)一條活動微博，然后把廣告投放給跟這條微博互動的用戶；

把廣告投放給剛剛關注奔馳的用戶。

針對這類需求我們實現(xiàn)了一個情景引擎，接入微博上所有主要用戶行為數(shù)據(jù)，按行為類別（謂語行為）分類存儲，抽取出其中的對象（賓語個體），一個情景就定義為謂語+賓語，經(jīng)過一系列中間計算后，形成“用戶-情景列表”索引格式的數(shù)據(jù)，實時更新到線上緩存供定向服務使用。

情景引擎用Storm接入實時數(shù)據(jù)，計算后分鐘級別更新到線上緩存，大部分是工程問題。里面涉及到算法的地方主要有兩處：

數(shù)據(jù)清洗。接入的線上數(shù)據(jù)有垃圾流量，比如在話題區(qū)刷廣告的。需要建一個反垃圾模塊。

關系擴展。計算出來的情景-用戶列表通常會有極強的長尾分布，即頭部的情景占據(jù)海量用戶，但我們在廣告投放時希望大部分情景都能有相當數(shù)量的覆蓋用戶。因此會丟棄掉大部分長尾數(shù)據(jù)，對分布的中間部分做基于相似性或相關性的算法擴充。

中長期情景挖掘

基于情景引擎長期積累的數(shù)據(jù)，我們在上層建立了中長期情景標簽體系（對外稱為人生狀態(tài)標簽）。

人生狀態(tài)標簽體系一共有20多個標簽，涵蓋用戶的求學、旅行、車房、職業(yè)、婚戀、育兒等狀態(tài)。這些標簽都是各自獨立挖掘，挖掘的算法完全由其評價方法而定，并沒有通用方法，而評價方法完全取決于源數(shù)據(jù)情況。下面給出幾個例子：

大學生標簽：

根據(jù)發(fā)微博的內(nèi)容過濾出一個準確率比較高的大學生用戶集合（大學生在某些場景下發(fā)的微博會帶有區(qū)分度非常高的關鍵詞）。然后對16-25歲之間的用戶建模，特征主要包括關注特征、App使用特征，IBS特征。用過濾的用戶集合為正樣本，隨機取一個負樣本集合進行訓練。對所有16-25歲之間但不在樣本集合中的用戶進行預測，取一個預定的數(shù)量。

差旅標簽：

當前用戶的位置與用戶常駐城市不符，即看做用戶在差旅狀態(tài)。

豪車車主：

根據(jù)用戶行業(yè)/頭銜、影響力、社交關系等信息制定過濾策略。到用戶微博頁上人工驗證。

用預估的方法會有一個問題，即很難保證做出來的正樣本訓練集是無偏的。一般來說，能夠滿足某種過濾條件的數(shù)據(jù)總是有偏的，通常更偏向于更好更活躍的用戶。但在后期評估中發(fā)現(xiàn)，只要注意在模型里盡量不使用規(guī)則里的那些特征，關系并不大。另外，訓練集偏向更好的用戶也不算大問題，因為計算結果本來就要求優(yōu)先保證更好的用戶，那些不活躍的、特征缺失嚴重的用戶對業(yè)務的影響相對不重要一些。

人生狀態(tài)標簽跟興趣標簽看上去有類似的地方，但從評價方式和應用出發(fā)點來看完全不同。例如，“用戶對嬰兒用品感興趣”跟“用戶是嬰兒父母”是兩回事。從廣告投放的角度出發(fā)，我們從來不把這兩者混為一談，我們對前者的效果負責，但不對后者的效果負責。

另外，我們認為人生狀態(tài)標簽這樣的挖掘工作并非未來的方向，而是代表著一種傳統(tǒng)廣告業(yè)的思路。過多地依賴這種人能閱讀和理解的，但卻高度離散化的因素并非計算廣告的思維方式。但這不意味著這樣的工作沒有意義，在新媒體廣告領域，它在相當長的時期內(nèi)都是必須存在的。

小結

在長期實踐中，我們總結出數(shù)據(jù)挖掘工作中最重要的兩點是：緊貼業(yè)務，確定評價。不能做到這兩點的數(shù)據(jù)挖掘團隊通常會工作得比較困難，做很多無用功。

緊貼業(yè)務意味著數(shù)據(jù)團隊要從業(yè)務KPI中拆分出自己能貢獻的一部分，這一部分能直接評價就不要間接評價，因此問題又回到評價上，這是數(shù)據(jù)工作的核心。

評價體系的建設是一項容易被忽視的重要工作，它包括評價方法和流程的建立和迭代，評價數(shù)據(jù)的獲取和制作。其中數(shù)據(jù)獲取必須要長期進行，現(xiàn)在業(yè)界數(shù)據(jù)合作及打通已經(jīng)變成一種趨勢，大家能夠通過合作來獲取自己缺乏的數(shù)據(jù)，只靠自己的數(shù)據(jù)很難把工作做完整。

微博在產(chǎn)品創(chuàng)新和商業(yè)化的道路上已經(jīng)走了很久，試錯和踩坑都不計其數(shù)，在利用自身優(yōu)勢基礎上的內(nèi)外部積累也開展得比較早，因此在數(shù)據(jù)挖掘領域足夠接地氣，足夠開放，數(shù)據(jù)工作自身才能做得非常活，同時支持和引導廣告業(yè)務的發(fā)展。

CDA數(shù)據(jù)分析師考試相關入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；