
今天不談電商,只聊搜狐的大數(shù)據(jù)實(shí)踐
整天看到、聽到的都是各個(gè)電商企業(yè)的大數(shù)據(jù)實(shí)踐,今天換個(gè)口味,聊聊互聯(lián)網(wǎng)行業(yè),談?wù)l呢?搜狐。雖然從業(yè)務(wù)線來劃分,搜狐有焦點(diǎn)、搜狐汽車、暢言、說吧……,不過在筆者看來這些統(tǒng)一都可以歸結(jié)為互聯(lián)網(wǎng),業(yè)務(wù)模式基本是服務(wù)讀者,靠的是廣告和內(nèi)容。因此,如何精準(zhǔn)地投放廣告、推送內(nèi)容就顯得尤為關(guān)鍵,而這正是搜狐大數(shù)據(jù)所要做的。
按搜狐大數(shù)據(jù)平臺(tái)負(fù)責(zé)人、研發(fā)中心高級(jí)經(jīng)理、搜狐-英特爾聯(lián)合創(chuàng)新實(shí)驗(yàn)室搜狐負(fù)責(zé)人彭毅的話說,隨著大數(shù)據(jù)的熱度越來越高,大家對(duì)數(shù)據(jù)的價(jià)值越來越重視,運(yùn)用數(shù)據(jù)指導(dǎo)業(yè)務(wù)的發(fā)展,滿足用戶不斷的新需要成為搜狐業(yè)務(wù)發(fā)展的新動(dòng)力。在這樣的背景下,搜狐成立了一個(gè)大數(shù)據(jù)項(xiàng)目小組,內(nèi)部代號(hào)“大耳狐”。
據(jù)彭毅介紹,最開始他們做的主要是為了滿足業(yè)務(wù)部門對(duì)于數(shù)據(jù)處理平臺(tái)的計(jì)算需求,通俗地講就是提供平臺(tái)支撐。不過隨著業(yè)務(wù)的不斷發(fā)展,只做這些已經(jīng)難以滿足實(shí)際的業(yè)務(wù)需求,所以他們現(xiàn)在也在做更多的擴(kuò)展,比如在滿足底層平臺(tái)技術(shù)和業(yè)務(wù)線需求的前提下,他們正在考慮深度學(xué)習(xí)方面的研究。
言歸正傳,還是從搜狐正式開始做大數(shù)據(jù)方面的工作,也就是大數(shù)據(jù)項(xiàng)目組的成立說起。從去年年初成立到現(xiàn)在不過一年多的時(shí)間,這一年彭毅和他的團(tuán)隊(duì)可以說做了不少工作,從搭建平臺(tái),包括技術(shù)選型(Hadoop、Spark等)、硬件選型到平臺(tái)部署、應(yīng)用調(diào)試。這其中,他們參考了很多像Facebook、推特等廣泛使用大數(shù)據(jù)技術(shù)廠商所公開的一些資料,并最終在英特爾的協(xié)助下確定了現(xiàn)有的硬件選型,包括CPU型號(hào)、內(nèi)存大小、硬盤個(gè)數(shù)、網(wǎng)絡(luò)吞吐量等均做了權(quán)衡。
在此基礎(chǔ)上,搜狐部署了其基于開源Hadoop版本做的搜狐自有的Hadoop平臺(tái)。彭毅表示,在底層調(diào)優(yōu)上,包括計(jì)算力的高效使用,以及如何在英特爾架構(gòu)平臺(tái)把性能發(fā)揮到極致,雙方進(jìn)行了非常深入的合作。目前,經(jīng)過幾次擴(kuò)容升級(jí),當(dāng)前搜狐大數(shù)據(jù)平臺(tái)已經(jīng)有1000臺(tái)物理機(jī)左右的規(guī)模,現(xiàn)有平臺(tái)數(shù)據(jù)在30PB。
看得出大數(shù)據(jù)在搜狐內(nèi)部需求的迅猛增長(zhǎng),在采訪中,搜狐大數(shù)據(jù)平臺(tái)核心技術(shù)人員、搜狐研發(fā)中心高級(jí)研究員王帥表示,他們每天產(chǎn)生的日志數(shù)據(jù)在20TB左右,產(chǎn)生的各種數(shù)據(jù)在60TB-200TB之間,雖然無法與BAT同日而語,但就整個(gè)業(yè)界平均水平而言,搜狐每天所產(chǎn)生的量是非常可觀的,到這也就不難理解為什么他們?cè)诙潭桃荒觊g就進(jìn)行了幾次擴(kuò)容。
在采訪中,王帥還特別舉了一個(gè)大數(shù)據(jù)實(shí)際應(yīng)用的例子,廣告的精準(zhǔn)投放。他說,用戶在使用各種產(chǎn)品時(shí)會(huì)產(chǎn)生各種行為數(shù)據(jù),比如點(diǎn)擊了什么、瀏覽了什么、搜索了什么,這些數(shù)據(jù)可以實(shí)時(shí)收集,然后經(jīng)過卡夫卡集群做中間的數(shù)據(jù)調(diào)度,再把它們導(dǎo)入Hadoop集群,業(yè)務(wù)部門根據(jù)收集回來的數(shù)據(jù)做精準(zhǔn)計(jì)算,像用戶畫像之類的,然后根據(jù)結(jié)果反推,進(jìn)行精準(zhǔn)的廣告投放。
看起來似乎并不難,其實(shí)并不容易,最簡(jiǎn)單地講,每個(gè)用戶每天的數(shù)據(jù)都在發(fā)生變化,所以每天都需要重新計(jì)算,這個(gè)計(jì)算量可想而知。當(dāng)然,這只是其中一個(gè)方面,在談到做大數(shù)據(jù)過程中所遇到的挑戰(zhàn)時(shí),彭毅也是百感交集。他說,幾乎每一塊,包括平臺(tái)、軟件、硬件、底層架構(gòu)都可能遇到難題,比如搜狐遇到一個(gè)很實(shí)際的問題就是從舊有的Hadoop平臺(tái)遷移到新的平臺(tái)上,這其中他們費(fèi)了不少力氣。
而這其實(shí)也正是筆者相對(duì)即將應(yīng)用大數(shù)據(jù)的用戶所說的話,大數(shù)據(jù)應(yīng)用絕對(duì)不是像很多人說說那么簡(jiǎn)單,做起來會(huì)涉及到方方面面的內(nèi)容,所以選幾個(gè)靠譜的合作商還是很有必要的。
最后分享一下搜狐大數(shù)據(jù)團(tuán)隊(duì)的人員構(gòu)成,1000臺(tái)機(jī)器的集群,猜猜有多少人?在維護(hù)這個(gè)平臺(tái)的大概只有兩三個(gè)人,總的項(xiàng)目組成員也不過十幾個(gè)。據(jù)彭毅介紹,得益于英特爾的協(xié)助以及大耳狐平臺(tái)的開發(fā),他們只有十幾個(gè)人就能完成這些研發(fā)、維護(hù)的工作。其中這十幾個(gè)人中有一部分負(fù)責(zé)和大數(shù)據(jù)平臺(tái)相關(guān)的維護(hù)工作,他們的職責(zé)是讓整個(gè)集群的運(yùn)維管理更智能化;另一部分主要是做Hadoop大數(shù)據(jù)相關(guān)的技術(shù)研究,包括兼容性、前瞻性(大數(shù)據(jù)技術(shù)的演進(jìn))等,還有最后一部分是面向用戶的,如何更好地結(jié)合用戶需求做一些優(yōu)化、調(diào)整。
“通過使用我們的產(chǎn)品,為用戶提供更為精準(zhǔn)的內(nèi)容,是作為搜狐這樣一個(gè)媒體公司一直以來追求的目標(biāo)”,彭毅這樣總結(jié)他們大數(shù)據(jù)應(yīng)用的目標(biāo)。而這或許應(yīng)該是大數(shù)據(jù)對(duì)所有用戶的最終價(jià)值體現(xiàn)。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
LSTM 模型輸入長(zhǎng)度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長(zhǎng)序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報(bào)考條件詳解與準(zhǔn)備指南? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代浪潮下,CDA 數(shù)據(jù)分析師認(rèn)證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計(jì)的實(shí)用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強(qiáng)大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠(chéng)摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實(shí)施重大更新。 此次更新旨在確保認(rèn) ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價(jià)值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡(jiǎn)稱 BI)深度融合的時(shí)代,BI ...
2025-07-10SQL 在預(yù)測(cè)分析中的應(yīng)用:從數(shù)據(jù)查詢到趨勢(shì)預(yù)判? ? 在數(shù)據(jù)驅(qū)動(dòng)決策的時(shí)代,預(yù)測(cè)分析作為挖掘數(shù)據(jù)潛在價(jià)值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價(jià)值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點(diǎn),而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報(bào)考到取證的全攻略? 在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭(zhēng)搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢(shì)性檢驗(yàn):捕捉數(shù)據(jù)背后的時(shí)間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢(shì)性檢驗(yàn)如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時(shí)間維度的精準(zhǔn)切片? ? 在數(shù)據(jù)的世界里,時(shí)間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準(zhǔn) ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應(yīng)用與實(shí)戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認(rèn)證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗(yàn):數(shù)據(jù)趨勢(shì)與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準(zhǔn)確捕捉數(shù)據(jù)的趨勢(shì)變化以及識(shí)別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認(rèn)證作為國(guó)內(nèi)權(quán)威的數(shù)據(jù)分析能力認(rèn)證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應(yīng)對(duì)策略? 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨(dú)特的門控機(jī)制,在 ...
2025-07-07統(tǒng)計(jì)學(xué)方法在市場(chǎng)調(diào)研數(shù)據(jù)中的深度應(yīng)用? 市場(chǎng)調(diào)研是企業(yè)洞察市場(chǎng)動(dòng)態(tài)、了解消費(fèi)者需求的重要途徑,而統(tǒng)計(jì)學(xué)方法則是市場(chǎng)調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當(dāng)下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動(dòng)力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準(zhǔn)確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動(dòng)力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價(jià)值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03