
廣點通背后的大數據技術秘密_大規(guī)模主題模型建模及其在騰訊業(yè)務中的應用(附PPT)一
12月14日,騰訊廣點通高級研究員靳志輝在2014中國大數據技術大會上發(fā)表演講,題為《Peacock: 大規(guī)模主題模型及其在騰訊業(yè)務中的應用》。騰訊廣點通高級研究員靳志輝(Rickjin)所在的廣點通部門,承接的流量一天接近150億,他希望用技術幫助騰訊更好地處理這些流量,具體而言就是通過大規(guī)模主題模型學習系統 Peacock找出用戶在網絡數據深層的密碼?!拔覀冇X得互聯網需要挖掘長尾的語義,主題模型能夠突破傳統處理的一些限制挖掘數據里面深層的隱含的語義。以下為作者演講實錄。
相關閱讀:
21頁PPT重磅發(fā)布:Mariana——騰訊深度學習平臺的進展與應用
33頁PPT|騰訊社交網絡的大數據建模框架探索報告
重磅推薦:129頁PPT講述移動時代創(chuàng)業(yè)黃金法則 via:騰訊企鵝智酷
重磅!50頁PPT揭秘騰訊大數據平臺與推薦應用架構
36頁PPT│大數據分析關鍵技術在騰訊的應用服務創(chuàng)新
大家好,我來自騰訊的效果廣告平臺部,參與開發(fā)的廣告平臺是廣點通,廣點通目前是騰訊最大的效果廣告平臺,每天承接的流量接近150億PV,未來其實應該會達到200億PV的流量,這是非常海量的流量。作為技術人員,我們在騰訊的夢想就是希望騰訊變成更加技術型的公司。我們團隊在廣告部門所負責的主要工作是各種機器學習工具的開發(fā),以及利用機器學習工具處理騰訊的用戶數據挖掘。之前互聯網廣告業(yè)務有兩大機器學習系統,第一大系統 Logistic Regression,廣泛用于廣告點擊率預估;第二大系統就是隱含主題建模(Latent Topic Model)。這兩大系統早期都是由谷歌推動的,然后傳播到國內的各個互聯網公司。當然,現在由于深度學習的興起,最近廣告業(yè)務中又增加了一套基于 DNN 的系統。
在隱含主題模型方向上,我們從 2010 年開始就不斷的做一些探索,我今天要講的Peacock 系統就是我們團隊在主題模型建模上的工作。今天的報告主要分成如下幾個部分:我先Demo一下我們Peacock系統是如何工作的,隨后簡單介紹一下主題模型的背景,接著介紹Peacock是怎么來實現大規(guī)模并行計算的,最后我們講一下主題模型在騰訊業(yè)務中的應用。
先來講幾個例子。用戶在網絡上的行為會留下很多的數據,其中最典型是一些文本數據,你搜索的一些文章,你發(fā)的微博,我們通過自然語言處理技術理解這些詞。第一個例子是用戶搜索了“紅酒木瓜湯”,這樣的Query給它展示什么廣告? 單純的從關健詞來說,多是酒或者水果。第二個詞是“蘋果”,蘋果實際上是多義詞,可以是水果也可以是手機。第三個詞“莫代爾”,在座的估計很多人不知道這個詞是什么意思。
如果我們把這些詞輸入Peacock系統,我們看看系統會產生什么樣的輸出。我們可以看到Peacock 系統打印出很多行,每一行其實代表一個主題(topic),“紅酒木瓜湯”系統給出的第一個主題的語義解釋是 “減肥、豐胸、美容” ,從廣告系統的角度,如果能夠展現跟女性減肥、豐胸更相關廣告,這個點擊率可能高。我們發(fā)現整個Peacock的系統處理文本語義的時候,不同的主題有不同的權重,展現的時候按照主題權重排序,而每個主題用一包詞描述。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數據分析師報考條件詳解與準備指南? ? 在數據驅動決策的時代浪潮下,CDA 數據分析師認證愈發(fā)受到矚目,成為眾多有志投身數 ...
2025-07-11數據透視表中兩列相乘合計的實用指南? 在數據分析的日常工作中,數據透視表憑借其強大的數據匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數據分析師:連接數據與業(yè)務的價值轉化者? ? 在大數據與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數據查詢到趨勢預判? ? 在數據驅動決策的時代,預測分析作為挖掘數據潛在價值的核心手段,正被廣泛 ...
2025-07-10數據查詢結束后:分析師的收尾工作與價值深化? ? 在數據分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數 ...
2025-07-10CDA 數據分析師考試:從報考到取證的全攻略? 在數字經濟蓬勃發(fā)展的今天,數據分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數據背后的時間軌跡? 在數據分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數據類型:時間維度的精準切片? ? 在數據的世界里,時間是最不可或缺的維度之一,而year_month數據類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數據分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數據分析師認證考試中,Python 作為數據處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數據趨勢與突變分析的有力工具? ? ? 在數據分析的廣袤領域中,準確捕捉數據的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數據分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數據分析師認證作為國內權威的數據分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統計學方法在市場調研數據中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統計學方法則是市場調研數 ...
2025-07-07CDA數據分析師證書考試全攻略? 在數字化浪潮席卷全球的當下,數據已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數據分析師也因此成為 ...
2025-07-07剖析 CDA 數據分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數據分析師考試作為衡量數據專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數據處理的關鍵技能? 在數據處理與分析工作中,數據格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數據分析師視角:從數據迷霧中探尋商業(yè)真相? 在數字化浪潮席卷全球的今天,數據已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數據分析師:開啟數據職業(yè)發(fā)展新征程? ? 在數據成為核心生產要素的今天,數據分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03