
微博商業(yè)數(shù)據(jù)挖掘方法
本文主要介紹微博商業(yè)數(shù)據(jù)挖掘的體系及方法,但并不注重模型和算法這些細(xì)節(jié),而是闡述數(shù)據(jù)如何貼近、支持和引導(dǎo)業(yè)務(wù),如何建立合理的評(píng)價(jià)體系,以及如何圍繞這兩點(diǎn)建設(shè)數(shù)據(jù)挖掘架構(gòu)。
業(yè)務(wù)及產(chǎn)品
微博廣告生態(tài)的復(fù)雜程度在業(yè)界數(shù)一數(shù)二。由于微博本身的開(kāi)放性,微博廣告客戶天生就有如下多樣性:
類型
電商類型:投放方式大多比較傳統(tǒng),投放目標(biāo)主要是注冊(cè)或購(gòu)買;
App類型:投放目標(biāo)主要是App下載或者用戶喚醒;
O2O:投放目標(biāo)包括電話、到店、銷售線索等;
媒體/品牌類:投放目標(biāo)主要是帶粉,擴(kuò)大影響力和傳播范圍。
投放方式
不同客戶對(duì)微博廣告產(chǎn)品這項(xiàng)營(yíng)銷工具的理解和應(yīng)用程度相去甚遠(yuǎn),有一部分客戶已經(jīng)能熟練使用不同的自助廣告產(chǎn)品,設(shè)置不同的創(chuàng)意模板,撰寫有針對(duì)性的創(chuàng)意來(lái)達(dá)到不同的營(yíng)銷目的,甚至經(jīng)常使用時(shí)間和空間上的組合營(yíng)銷形式,這些客戶通常效果較好,粘性也很強(qiáng);但也有一部分客戶還停留在傳統(tǒng)聯(lián)盟廣告的時(shí)代,投放方式比較單一,對(duì)創(chuàng)意的生成欠缺足夠思考,效果也不盡人意。客戶梯度共同構(gòu)成了微博廣告生態(tài),最直接的后果就是——優(yōu)秀的廣告與毫無(wú)吸引力的廣告并存。
定向要求
由于微博的強(qiáng)賬號(hào)屬性以及由此帶來(lái)的用戶畫像挖掘方面的潛力,客戶對(duì)廣告定向工具的要求非常精細(xì)。主要包括如下幾類定向條件:
基礎(chǔ)定向:用戶的年齡,性別,城市,手機(jī)型號(hào)等;
興趣定向:用戶感興趣的實(shí)體類目,甚至興趣關(guān)鍵詞;
關(guān)系定向:指定大號(hào)或競(jìng)品的粉絲投放;
狀態(tài)定向:指定處于某一人生狀態(tài)的用戶,比如車房、婚戀階段;
情景定向:一類粒度非常細(xì)的實(shí)時(shí)觸發(fā)類投放,這類需求經(jīng)常來(lái)自于SCRM(社交客戶關(guān)系管理)之類的業(yè)務(wù),譬如客戶可以指定投放給跟他的某條微博有互動(dòng)的所有用戶,或是正在首都機(jī)場(chǎng)的所有用戶
圖1 廣告客戶對(duì)微博廣告的細(xì)分需求
微博推出了多種計(jì)算廣告產(chǎn)品來(lái)滿足多樣化需求,并且還在持續(xù)迭代和改進(jìn)。每一種廣告產(chǎn)品專門抽象一大類投放需求,有不同的廣告模板、計(jì)費(fèi)方式、定向條件、投放平臺(tái)以及專業(yè)人員配備。這是近兩年微博商業(yè)化順暢進(jìn)行的主因。
圖2 主要微博廣告產(chǎn)品矩陣
商業(yè)數(shù)據(jù)體系
廣告投放業(yè)務(wù)對(duì)數(shù)據(jù)的需求主要是流量細(xì)分及描述反饋,因此微博商業(yè)數(shù)據(jù)挖掘體系也是以流量細(xì)分,即通常說(shuō)的以用戶畫像為核心來(lái)建設(shè)。周邊輔助的數(shù)據(jù)挖掘模塊主要包括:
內(nèi)容挖掘:微博用戶的一切屬性都由他們的行為及其客體來(lái)描述,而這些用戶行為(包括轉(zhuǎn)發(fā)、評(píng)論、關(guān)注、贊、點(diǎn)擊短鏈/視頻)和客體(微博、廣告主、大號(hào))構(gòu)成了微博產(chǎn)品的絕大部分,因此內(nèi)容挖掘一直都是商業(yè)數(shù)據(jù)挖掘的重點(diǎn)工作。
關(guān)系挖掘:包括所有用戶跟客體對(duì)象之間聯(lián)系方式的挖掘。關(guān)系挖掘的難點(diǎn)主要是發(fā)現(xiàn)在每一個(gè)業(yè)務(wù)場(chǎng)景下,不同關(guān)系的產(chǎn)生對(duì)于廣告效果的意義及影響。
App數(shù)據(jù)挖掘:微博作為開(kāi)放平臺(tái)接入了相當(dāng)數(shù)量的第三方App,用戶使用這些App的行為記錄能幫助我們獲取他們作為自然人的信息,用于判斷用戶在實(shí)際生活中的某些狀態(tài)。另外,用戶的App喜好能夠直接幫助App類廣告進(jìn)行投放。
LBS數(shù)據(jù)挖掘:微博的簽到數(shù)據(jù)能幫助判斷用戶的某些狀態(tài),同時(shí)也能滿足部分客戶在投放上的某些需求,比如O2O類的客戶會(huì)更加關(guān)心附近的本地用戶。
在長(zhǎng)期業(yè)務(wù)實(shí)踐中,我們最終將用戶畫像體系分為如下3個(gè)部分:
基礎(chǔ)數(shù)據(jù):描述用戶的一些基本信息,包括年齡、性別、常駐城市、手機(jī)型號(hào)、活躍度等。大部分信息可以直接獲取或簡(jiǎn)單統(tǒng)計(jì)獲取,有時(shí)需要對(duì)數(shù)據(jù)的準(zhǔn)確性加以算法修正;
興趣數(shù)據(jù):主要描述“用戶對(duì)什么感興趣”;
情景數(shù)據(jù):主要描述“用戶是什么人”。
圖3 微博商業(yè)數(shù)據(jù)體系
用戶數(shù)據(jù)的計(jì)算有一套完整的高復(fù)用低耦合的數(shù)據(jù)模塊體系來(lái)支撐,最終成形的數(shù)據(jù)挖掘架構(gòu)如圖4所示。
圖4 微博商業(yè)數(shù)據(jù)挖掘架構(gòu)
評(píng)價(jià)體系
四層評(píng)價(jià)
微博商業(yè)數(shù)據(jù)挖掘工作第一大重點(diǎn)是評(píng)價(jià)體系的建設(shè)。據(jù)我們了解,這是很多數(shù)據(jù)挖掘部門忽視的地方。我們建立了一個(gè)四層級(jí)的評(píng)價(jià)體系:
1.效果級(jí):挖掘的結(jié)果可以直接用線上廣告投放效果提升來(lái)評(píng)價(jià)。這是最強(qiáng)的一級(jí)評(píng)價(jià)。
示例:目前為止,只有興趣挖掘能夠使用這一級(jí)評(píng)價(jià)。
2.Ground Truth級(jí):Ground Truth有一個(gè)規(guī)模足夠的數(shù)據(jù)集來(lái)當(dāng)作標(biāo)注集和交叉驗(yàn)證的測(cè)試集,可以使用監(jiān)督學(xué)習(xí)算法來(lái)做分類。這個(gè)Ground Truth數(shù)據(jù)集被當(dāng)作最終可信的評(píng)估標(biāo)準(zhǔn),也用于交叉驗(yàn)證。
示例:用戶性別。微博所有用戶都有自己填寫的性別屬性,但并非100%可信。但微博有很多實(shí)名認(rèn)證的用戶,這部分用戶的性別是可信的,因此我們以這些用戶作為標(biāo)注,來(lái)修正那些沒(méi)有實(shí)名認(rèn)證的用戶性別數(shù)據(jù)。
3.Case級(jí):不具備統(tǒng)計(jì)意義的標(biāo)準(zhǔn)數(shù)據(jù)集,即無(wú)法獲得標(biāo)注數(shù)據(jù),但對(duì)于分類的結(jié)果,少部分能夠通過(guò)人工到微博用戶的頁(yè)面上去判斷是否準(zhǔn)確。這種情況只能通過(guò)規(guī)則來(lái)挖掘。
示例:常住城市。挖掘用戶常住城市只能使用用戶的IBS信息及IP地址,其余的特征對(duì)這個(gè)標(biāo)簽的貢獻(xiàn)度都極其有限,因此只能使用規(guī)則來(lái)判定,然后對(duì)規(guī)則分類的結(jié)果抽樣后,人工去用戶微博頁(yè)面上檢驗(yàn)。只有大約5%的用戶能夠通過(guò)微博頁(yè)面(博文、照片等信息)來(lái)人工判斷他的常住城市。
4.Logic級(jí):當(dāng)以上三個(gè)級(jí)別的評(píng)價(jià)條件都不具備,只能評(píng)價(jià)邏輯完備性。即挖掘規(guī)則邏輯是否是當(dāng)前情況下最合理的。
示例:差旅狀態(tài)。用戶當(dāng)前位置不在常駐城市即判定為差旅狀態(tài),不做任何驗(yàn)證(但不做任何驗(yàn)證的情況極少,通常Case級(jí)和Logic級(jí)的評(píng)價(jià)很難完全分開(kāi),通常是偏Case或是偏Logic,總要同時(shí)看邏輯完備性和Case檢驗(yàn))。
圖5 數(shù)據(jù)挖掘四層評(píng)價(jià)
評(píng)價(jià)體系建設(shè)
對(duì)于評(píng)價(jià)有如下原則:
任何一項(xiàng)數(shù)據(jù)挖掘工作都必須在開(kāi)展之前確定具體評(píng)價(jià)方法,并且讓這項(xiàng)工作的相關(guān)人員(包括PM)都知曉并認(rèn)可這種評(píng)價(jià)方法。
盡可能把一項(xiàng)數(shù)據(jù)挖掘工作的評(píng)價(jià)方法往上一個(gè)層級(jí)推。
這是評(píng)價(jià)體系建設(shè)的重點(diǎn),意味著不僅只有算法和模型工作可以不斷迭代,評(píng)價(jià)方法本身也可以迭代。這項(xiàng)工作的重要性可能比模型的研發(fā)還要重要,如果大部分工作的評(píng)價(jià)只能停留在Case級(jí)甚至Logic級(jí)的話,整個(gè)數(shù)據(jù)挖掘體系很快就會(huì)無(wú)以為繼,變得沒(méi)有意義,因?yàn)檫@種工作的迭代余地很小,且沒(méi)有方向。
我們花大量的時(shí)間解決Ground Truth數(shù)據(jù),方法一般有兩種:
引入第三方數(shù)據(jù)。這是一項(xiàng)長(zhǎng)期進(jìn)行的重要工作。任何互聯(lián)網(wǎng)平臺(tái)在數(shù)據(jù)上都有自己的長(zhǎng)處和短板,微博的短板是缺少足夠細(xì)分垂直領(lǐng)域的用戶數(shù)據(jù)。因此一直致力于引入各種用戶現(xiàn)世數(shù)據(jù)和垂直領(lǐng)域數(shù)據(jù)。
在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上用規(guī)則過(guò)濾正樣本。通過(guò)規(guī)則找到一個(gè)召回率較低但準(zhǔn)確率很高的集合作為正樣本,就可以把評(píng)價(jià)推高到Ground Truth級(jí)。
除了興趣標(biāo)簽外,能直接用效果來(lái)評(píng)價(jià)的數(shù)據(jù)并不多,而且業(yè)務(wù)層面的假設(shè)太多,我們?cè)趯?shí)踐中僅用來(lái)參考。例如性別數(shù)據(jù),對(duì)某些已知的強(qiáng)性別選擇的廣告行業(yè)(例如美妝),可以通過(guò)線上效果來(lái)間接判定數(shù)據(jù)準(zhǔn)確率,但這種不夠直接的方法很少采用,因?yàn)橹虚g因素太多,自洽性不強(qiáng)。
在這個(gè)評(píng)價(jià)體系下,數(shù)據(jù)工程師并不對(duì)興趣標(biāo)簽之外挖掘結(jié)果的廣告效果負(fù)責(zé)。如果用戶使用了這些定向工具有好的效果,那很好,如果效果不好,數(shù)據(jù)工程師是不會(huì)就這個(gè)標(biāo)簽本身來(lái)進(jìn)行效果優(yōu)化的,因?yàn)檫@根本不是評(píng)價(jià)方向,這類標(biāo)簽在業(yè)務(wù)中的位置不處于效果的反饋環(huán)上。工程師只對(duì)興趣標(biāo)簽做效果優(yōu)化。
除興趣標(biāo)簽之外的數(shù)據(jù)挖掘流程如圖6。
圖6 數(shù)據(jù)挖掘方法流程
興趣挖掘
興趣挖掘并沒(méi)有Ground Truth可以驗(yàn)證,因?yàn)榕d趣本身就是一個(gè)非客觀、難以界定的描述。在微博商業(yè)體系內(nèi),興趣是如下定義的:
用戶如果對(duì)某類別的事物感興趣:用戶在指定廣告投放場(chǎng)景里對(duì)這類廣告的預(yù)估轉(zhuǎn)化概率/點(diǎn)擊率較高。
如果不能指定具體廣告投放場(chǎng)景,興趣的意思是:用戶對(duì)這類內(nèi)容的歷史關(guān)注/互動(dòng)率較高。
在前一種情況下,興趣標(biāo)簽是一個(gè)可預(yù)估的最優(yōu)化問(wèn)題,是CTR/CVR預(yù)估體系的一部分,可以做出不同粒度的興趣標(biāo)簽來(lái),而且往往不止一套。如果有N種計(jì)算廣告產(chǎn)品,每種廣告產(chǎn)品可以有M種預(yù)定義的轉(zhuǎn)化行為,線上的興趣標(biāo)簽理論上最多可以有N x M套。標(biāo)簽數(shù)據(jù)的評(píng)價(jià)方式直接用線上效果評(píng)價(jià),可以持續(xù)迭代。
在后一種情況下,興趣標(biāo)簽只是一個(gè)解釋性問(wèn)題,在評(píng)價(jià)體系里處于最底層,實(shí)際上無(wú)法迭代。但這種興趣標(biāo)簽的存在是必要的,因?yàn)椴⒉皇撬械膽?yīng)用場(chǎng)景都是廣告投放,而且用特定產(chǎn)品的廣告數(shù)據(jù)訓(xùn)練出的模型會(huì)比較偏,但某些場(chǎng)景(比如DMP的流量透視功能)需要一套不直接服務(wù)于投放效果、能完整描述用戶群體的標(biāo)簽。因此我們根據(jù)關(guān)注和互動(dòng)關(guān)系用簡(jiǎn)單統(tǒng)計(jì)的方法生成一版通用的興趣標(biāo)簽。它只要求可解釋性,所以規(guī)則越簡(jiǎn)單越好。一般禁止使用層次分析法,因?yàn)樗鼘?duì)任何一層的評(píng)價(jià)都沒(méi)有幫助。
內(nèi)容興趣
圖7 微博內(nèi)容興趣標(biāo)簽計(jì)算
內(nèi)容興趣標(biāo)簽提供給除應(yīng)用家之外的廣告產(chǎn)品做定向工具。內(nèi)容興趣的做法如下:
劃定一個(gè)微博上提供內(nèi)容的大號(hào)列表,這個(gè)列表中用戶貢獻(xiàn)的原創(chuàng)內(nèi)容能覆蓋絕大多數(shù)被消費(fèi)(閱讀、互動(dòng))的原創(chuàng)內(nèi)容。列表包括所有廣告主。我們稱這個(gè)列表為廣義客戶列表。
挖掘這些大號(hào)所提供內(nèi)容的領(lǐng)域關(guān)鍵詞,主要是相關(guān)性計(jì)算。
對(duì)這些大號(hào)進(jìn)行聚類,然后人工整理聚類的結(jié)果,形成一個(gè)二級(jí)內(nèi)容分類樹(shù)。這個(gè)分類及領(lǐng)域關(guān)鍵詞被稱為大號(hào)的能力標(biāo)簽。微博上不生產(chǎn)的內(nèi)容(比如工農(nóng)業(yè)行業(yè)信息)對(duì)微博廣告產(chǎn)品來(lái)說(shuō)是無(wú)意義的,因此沒(méi)有采用人工預(yù)先給出分類體系的方法。
用機(jī)器學(xué)習(xí)模型(FM或LR)來(lái)預(yù)估每個(gè)廣告產(chǎn)品中,用戶對(duì)每一類廣告產(chǎn)生目標(biāo)行為的概率,如果高于某個(gè)閾值,即看做該用戶對(duì)該類別是有興趣的。這是用于具體廣告產(chǎn)品定向的做法。
在廣告運(yùn)營(yíng)工作中我們經(jīng)常針對(duì)某一個(gè)廣告主做專屬定向包,方法類似,只是特征是在用戶-廣告主這個(gè)粒度的。
如果需要不依賴具體廣告產(chǎn)品的通用數(shù)據(jù),直接統(tǒng)計(jì)每個(gè)用戶對(duì)大號(hào)的關(guān)注關(guān)系,如果用戶對(duì)某一類別的關(guān)注高于平均值,即看做對(duì)該類別是有興趣的。
App興趣
App興趣標(biāo)簽是為應(yīng)用家產(chǎn)品專門建立的。這項(xiàng)工作能夠比較完整地表現(xiàn)微博商業(yè)數(shù)據(jù)挖掘中解決問(wèn)題的思路。
App興趣標(biāo)簽是應(yīng)用家CVR預(yù)估體系的一部分。CVR預(yù)估體系被建設(shè)成一個(gè)漏斗式的,特征的粒度從粗到細(xì)。App興趣標(biāo)簽是用戶-App類別粒度的,模型中較多使用交叉特征,這一層的計(jì)算結(jié)果被包裝成定向工具給客戶使用;中間層的粒度是用戶-App,作為一個(gè)隱式定向存在;最后一層則是線上的CVR預(yù)估模型,特征粒度是用戶-廣告-上下文,計(jì)算結(jié)果直接參與Rank。
在做CVR預(yù)估之前有兩個(gè)數(shù)據(jù)問(wèn)題。首先,應(yīng)用家的功能支持廣告客戶指定效果目標(biāo)行為:下載(推動(dòng)沒(méi)有安裝這個(gè)App的用戶下載)和喚醒(推動(dòng)安裝了這個(gè)App的用戶重新進(jìn)入該App成為當(dāng)天日活)。因此至少需要知道每個(gè)用戶是否安裝了這些App,才能比較精準(zhǔn)地投放。
解決這個(gè)問(wèn)題的方法是:
以微博已有的數(shù)據(jù)為基礎(chǔ),引入第三方數(shù)據(jù),獲取盡可能多的用戶安裝App列表。
以1作為標(biāo)注數(shù)據(jù),預(yù)估那些1沒(méi)有覆蓋到的用戶App安裝情況。
另一個(gè)問(wèn)題是,要做CVR預(yù)估就必須獲取下載數(shù)據(jù)作為訓(xùn)練標(biāo)注。但微博無(wú)法跟蹤從廣告點(diǎn)擊跳轉(zhuǎn)出去的用戶后續(xù)行為(尤其是iOS環(huán)境下)。
解決的方法是:
跟第三方監(jiān)控公司合作,獲取部分客戶App后續(xù)下載數(shù)據(jù)。
以1作為標(biāo)注數(shù)據(jù),預(yù)估那些1沒(méi)有覆蓋到的客戶App后續(xù)下載情況。
這兩個(gè)問(wèn)題的解決方法如出一轍,都是先去找數(shù)據(jù),找不到的部分再預(yù)估。預(yù)估的結(jié)果可以結(jié)合交叉驗(yàn)證,直接線上評(píng)價(jià)。
應(yīng)用家數(shù)據(jù)挖掘體系如圖8。
圖8 App興趣標(biāo)簽計(jì)算
情景挖掘
情景挖掘來(lái)源于一系列客戶需求。在業(yè)務(wù)溝通中,經(jīng)常接到客戶類似如下的需求:
經(jīng)常出入高級(jí)酒店和機(jī)場(chǎng)的用戶;
寶馬車主;
大學(xué)生;
在微博參與了某個(gè)指定話題(比如“#Angelababy大婚#”)的用戶。
這些需求看似零亂,實(shí)際上都屬于不同于“興趣”的另一類問(wèn)題,它需要知道“用戶是什么人”。因此我們建設(shè)了情景挖掘體系來(lái)整合響應(yīng)這類需求的工作。
圖9 情景挖掘體系
情景引擎
最早建立情景引擎是為了滿足某些DSP給大客戶做SCRM的需求。客戶需要運(yùn)營(yíng)社交網(wǎng)絡(luò)上的粉絲和潛在客戶,需要一些工具把消息分發(fā)給這些用戶,比如:
把廣告投放給微博里提及了“寶馬”的用戶;
發(fā)一條活動(dòng)微博,然后把廣告投放給跟這條微博互動(dòng)的用戶;
把廣告投放給剛剛關(guān)注奔馳的用戶。
針對(duì)這類需求我們實(shí)現(xiàn)了一個(gè)情景引擎,接入微博上所有主要用戶行為數(shù)據(jù),按行為類別(謂語(yǔ)行為)分類存儲(chǔ),抽取出其中的對(duì)象(賓語(yǔ)個(gè)體),一個(gè)情景就定義為謂語(yǔ)+賓語(yǔ),經(jīng)過(guò)一系列中間計(jì)算后,形成“用戶-情景列表”索引格式的數(shù)據(jù),實(shí)時(shí)更新到線上緩存供定向服務(wù)使用。
情景引擎用Storm接入實(shí)時(shí)數(shù)據(jù),計(jì)算后分鐘級(jí)別更新到線上緩存,大部分是工程問(wèn)題。里面涉及到算法的地方主要有兩處:
數(shù)據(jù)清洗。接入的線上數(shù)據(jù)有垃圾流量,比如在話題區(qū)刷廣告的。需要建一個(gè)反垃圾模塊。
關(guān)系擴(kuò)展。計(jì)算出來(lái)的情景-用戶列表通常會(huì)有極強(qiáng)的長(zhǎng)尾分布,即頭部的情景占據(jù)海量用戶,但我們?cè)趶V告投放時(shí)希望大部分情景都能有相當(dāng)數(shù)量的覆蓋用戶。因此會(huì)丟棄掉大部分長(zhǎng)尾數(shù)據(jù),對(duì)分布的中間部分做基于相似性或相關(guān)性的算法擴(kuò)充。
中長(zhǎng)期情景挖掘
基于情景引擎長(zhǎng)期積累的數(shù)據(jù),我們?cè)谏蠈咏⒘酥虚L(zhǎng)期情景標(biāo)簽體系(對(duì)外稱為人生狀態(tài)標(biāo)簽)。
人生狀態(tài)標(biāo)簽體系一共有20多個(gè)標(biāo)簽,涵蓋用戶的求學(xué)、旅行、車房、職業(yè)、婚戀、育兒等狀態(tài)。這些標(biāo)簽都是各自獨(dú)立挖掘,挖掘的算法完全由其評(píng)價(jià)方法而定,并沒(méi)有通用方法,而評(píng)價(jià)方法完全取決于源數(shù)據(jù)情況。下面給出幾個(gè)例子:
大學(xué)生標(biāo)簽:
根據(jù)發(fā)微博的內(nèi)容過(guò)濾出一個(gè)準(zhǔn)確率比較高的大學(xué)生用戶集合(大學(xué)生在某些場(chǎng)景下發(fā)的微博會(huì)帶有區(qū)分度非常高的關(guān)鍵詞)。然后對(duì)16-25歲之間的用戶建模,特征主要包括關(guān)注特征、App使用特征,IBS特征。用過(guò)濾的用戶集合為正樣本,隨機(jī)取一個(gè)負(fù)樣本集合進(jìn)行訓(xùn)練。對(duì)所有16-25歲之間但不在樣本集合中的用戶進(jìn)行預(yù)測(cè),取一個(gè)預(yù)定的數(shù)量。
差旅標(biāo)簽:
當(dāng)前用戶的位置與用戶常駐城市不符,即看做用戶在差旅狀態(tài)。
豪車車主:
根據(jù)用戶行業(yè)/頭銜、影響力、社交關(guān)系等信息制定過(guò)濾策略。到用戶微博頁(yè)上人工驗(yàn)證。
用預(yù)估的方法會(huì)有一個(gè)問(wèn)題,即很難保證做出來(lái)的正樣本訓(xùn)練集是無(wú)偏的。一般來(lái)說(shuō),能夠滿足某種過(guò)濾條件的數(shù)據(jù)總是有偏的,通常更偏向于更好更活躍的用戶。但在后期評(píng)估中發(fā)現(xiàn),只要注意在模型里盡量不使用規(guī)則里的那些特征,關(guān)系并不大。另外,訓(xùn)練集偏向更好的用戶也不算大問(wèn)題,因?yàn)橛?jì)算結(jié)果本來(lái)就要求優(yōu)先保證更好的用戶,那些不活躍的、特征缺失嚴(yán)重的用戶對(duì)業(yè)務(wù)的影響相對(duì)不重要一些。
人生狀態(tài)標(biāo)簽跟興趣標(biāo)簽看上去有類似的地方,但從評(píng)價(jià)方式和應(yīng)用出發(fā)點(diǎn)來(lái)看完全不同。例如,“用戶對(duì)嬰兒用品感興趣”跟“用戶是嬰兒父母”是兩回事。從廣告投放的角度出發(fā),我們從來(lái)不把這兩者混為一談,我們對(duì)前者的效果負(fù)責(zé),但不對(duì)后者的效果負(fù)責(zé)。
另外,我們認(rèn)為人生狀態(tài)標(biāo)簽這樣的挖掘工作并非未來(lái)的方向,而是代表著一種傳統(tǒng)廣告業(yè)的思路。過(guò)多地依賴這種人能閱讀和理解的,但卻高度離散化的因素并非計(jì)算廣告的思維方式。但這不意味著這樣的工作沒(méi)有意義,在新媒體廣告領(lǐng)域,它在相當(dāng)長(zhǎng)的時(shí)期內(nèi)都是必須存在的。
小結(jié)
在長(zhǎng)期實(shí)踐中,我們總結(jié)出數(shù)據(jù)挖掘工作中最重要的兩點(diǎn)是:緊貼業(yè)務(wù),確定評(píng)價(jià)。不能做到這兩點(diǎn)的數(shù)據(jù)挖掘團(tuán)隊(duì)通常會(huì)工作得比較困難,做很多無(wú)用功。
緊貼業(yè)務(wù)意味著數(shù)據(jù)團(tuán)隊(duì)要從業(yè)務(wù)KPI中拆分出自己能貢獻(xiàn)的一部分,這一部分能直接評(píng)價(jià)就不要間接評(píng)價(jià),因此問(wèn)題又回到評(píng)價(jià)上,這是數(shù)據(jù)工作的核心。
評(píng)價(jià)體系的建設(shè)是一項(xiàng)容易被忽視的重要工作,它包括評(píng)價(jià)方法和流程的建立和迭代,評(píng)價(jià)數(shù)據(jù)的獲取和制作。其中數(shù)據(jù)獲取必須要長(zhǎng)期進(jìn)行,現(xiàn)在業(yè)界數(shù)據(jù)合作及打通已經(jīng)變成一種趨勢(shì),大家能夠通過(guò)合作來(lái)獲取自己缺乏的數(shù)據(jù),只靠自己的數(shù)據(jù)很難把工作做完整。
微博在產(chǎn)品創(chuàng)新和商業(yè)化的道路上已經(jīng)走了很久,試錯(cuò)和踩坑都不計(jì)其數(shù),在利用自身優(yōu)勢(shì)基礎(chǔ)上的內(nèi)外部積累也開(kāi)展得比較早,因此在數(shù)據(jù)挖掘領(lǐng)域足夠接地氣,足夠開(kāi)放,數(shù)據(jù)工作自身才能做得非?;?,同時(shí)支持和引導(dǎo)廣告業(yè)務(wù)的發(fā)展。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開(kāi)啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03