
企業(yè)大數(shù)據(jù)建設(shè)案例分享
大數(shù)據(jù)的重要性已毋庸置疑,但大數(shù)據(jù)的采集、存儲、處理、分析、研究,卻不是一朝一夕煉成的!數(shù)據(jù)平臺如何建設(shè),推薦系統(tǒng)如何運算,等等,都是我們所關(guān)注的話題。2013年7月27日,CTO俱樂部走進了騰訊大講堂,來自迅雷、騰訊和桉樹的三位講師齊聚一堂,分享了各自的大數(shù)據(jù)實施案例。
首先,迅雷基礎(chǔ)研發(fā)中心數(shù)據(jù)平臺技術(shù)總監(jiān)陳仕明,主要從三個方面介紹了“迅雷數(shù)據(jù)平臺建設(shè)及應用案例”。
中型數(shù)據(jù)平臺
數(shù)據(jù)平臺可以分成中型數(shù)據(jù)平臺和大型數(shù)據(jù)平臺,中型數(shù)據(jù)平臺的主要特點是服務(wù)器資源、技術(shù)儲備和人員都比較有限。迅雷的數(shù)據(jù)分析模塊目前有500多臺服務(wù)器,4000多個CPU,存儲20P以上的數(shù)據(jù),磁盤有3000多塊,屬于中型數(shù)據(jù)平臺的規(guī)模。
中型數(shù)據(jù)平臺主要是基于開源已有的存儲和計算,做一些更上層的外延性的產(chǎn)品。
第一層是采集,采集分成實時采集和離線采用集,其中離線采集占了業(yè)務(wù)的大部分,主要用迅雷自己開發(fā)的Xrsync工具實現(xiàn)。有些數(shù)據(jù)需要涉及到實時計算,會同步發(fā),存起來之后ETL計算全部用開源計算框架。實時采集主要是采集日志文件,這種日志文件主要對應業(yè)務(wù)服務(wù)器里邊所生成的日志。
數(shù)據(jù)存儲之后,依然是一個物理模型,為了降低維護成本,需要把技術(shù)人員的工作盡量抽出來,讓其他崗位比如數(shù)據(jù)分析師做更多的事情。這就需要把底層數(shù)據(jù)抽象為業(yè)務(wù)人員理解的數(shù)據(jù)模型,抽完之后在最下邊做了維護平臺,以及報表系統(tǒng),還有自主查詢。
最右邊有兩塊,一塊是認證與授權(quán),從上到下所有東西都需要經(jīng)過認證和授權(quán),作為一個公司級集中式的存儲平臺,每個部門存儲都會在這兒做,所以你必須保障數(shù)據(jù)安全和資源合理分配。迅雷的平臺認證,全部采用kerberos認證。數(shù)據(jù)存到HDFS上之后,會給每一個業(yè)務(wù),或者每個產(chǎn)品,開辟一個kerberos帳號,所有帳號的數(shù)據(jù)都只能放在這個帳號的home里去,包括這個帳號的Hive或者HBase都存在該目錄下,并控制存儲空間。
另一塊是事件驅(qū)動調(diào)度:首先,任務(wù)的依賴關(guān)系用數(shù)據(jù)打通。任務(wù)和任務(wù)之間的依賴關(guān)系其實質(zhì)是任務(wù)背后的數(shù)據(jù)之間的依賴關(guān)系,某一個數(shù)據(jù)跑成功了之后依賴該數(shù)據(jù)的任務(wù)才能跑。
其次,需要把后置依賴前置改成前置驅(qū)動后置,前置任務(wù)跑成功了之后,將該任務(wù)對應的“數(shù)據(jù)事件”扔到調(diào)度總線里面去,由總線把需要依賴這個“數(shù)據(jù)事件”的其他任務(wù)調(diào)起來,當然該任務(wù)能夠立即跑,還要考慮到底層計算引擎目前的負載等情況。
上圖是調(diào)度引擎大體的架構(gòu):最核心部分是調(diào)度總線,數(shù)據(jù)分為是Task和Job,Task維護計算邏輯,如執(zhí)行的SQL腳本等;Job維護調(diào)度邏輯,如依賴什么“數(shù)據(jù)事件”, 一個Task可以配置多個Job。最左邊是Web接口,前端通過該接口查詢?nèi)蝿?wù)狀態(tài),以及控制任務(wù)等。最右邊是計算環(huán)境的適配層。
數(shù)據(jù)平臺使用案例
迅雷會把收集來的數(shù)據(jù)做成數(shù)據(jù)模型,最重要的數(shù)據(jù)模型是一個用戶事件模型,所有的基于用戶端的這種行為數(shù)據(jù),都可以把它抽象成模型存進去,這個模型用一句話概括就是,誰對誰的什么東西做了什么事情?
這個模型擁有很多緯度,如產(chǎn)品緯度,用戶緯度,時間緯度,客戶緯度、地域緯度,運營商緯度,終端緯度,渠道緯度,事件緯度等。
這個模型能做什么:簡單的比如每個產(chǎn)品的上線用戶數(shù),每個用戶的活躍度,用戶的黏性,以及某個產(chǎn)品的用戶的地域分布,運營商分布等,活躍用戶排名,最熱的資源排名,如哪些電影是最???,發(fā)生某個事件所消耗時間是多少,或者某個商品的銷售收入等。
迅雷還構(gòu)建了一個用戶的染色庫,迅雷擁有幾億的用戶,但是這些用戶各有什么樣的特征?比如是聯(lián)通用戶還是電信用戶,還是某個小運營商的用戶?還有興趣類標簽,如游戲類標簽,影視類標簽等。游戲標簽描述該用戶喜歡什么類型游戲,影視類標簽描述用戶喜歡什么類型的影視;根據(jù)這些屬性我們可以更好的為用戶服務(wù)。
另外一個是資源的屬性庫。比如一個影視文件,在資源屬性庫擁有該文件對應的電影的名稱,演員,以及電影類型等。
染色庫和資源屬性庫的應用主要有:比如,可以計算視頻指紋,根據(jù)兩個視頻指紋相似度計算這兩部電影是不是一部電影。染色庫還會應用在會員tips推廣中,迅雷會彈一些tips,為了提高tips的效果,提高點擊率,需要盡量精準的投放。另外在看看里邊放廣告的時候,也需要盡量的精準,不能最好不要把一個女性的產(chǎn)品,給一個男屌絲推,這樣一般點擊率會很差。
接下來,騰訊數(shù)據(jù)中心數(shù)據(jù)挖掘研究員肖磊,從業(yè)務(wù)的角度為我們介紹了騰訊的大數(shù)據(jù)應用之一精準推薦。他的演講主要包括四個部分:
騰訊做了什么
2012年的時候,騰訊贊助了KDDCup主要做了兩個事情,一個是微博上面的推薦,一個是廣告的推薦。具體到產(chǎn)品上面,包括騰訊視頻的推薦系統(tǒng),易迅首頁上的推薦,基于社交網(wǎng)絡(luò)廣告的推薦廣點通,還有朋友關(guān)系鏈的推薦等。這些推薦都是通過分析騰訊8億的活躍用戶做出的。
遇到的問題
肖磊認為作為一個推薦系統(tǒng),首先要處理好3P之間的關(guān)系。
首先是用戶,其次是ITEM,第三是場景,針對不同的場景不同位置有不同的方法做應用。
解決之道——3S
分別是數(shù)據(jù)、算法和系統(tǒng)。這三個是相輔相成的。
會基于用戶的基本信息和歷史數(shù)據(jù)構(gòu)建用戶畫像的體系,上圖中提到推薦的解決之道中,數(shù)據(jù)是排在第一位的,因為數(shù)據(jù)是做好準確推薦的立根之本。
兩大核心平臺
有兩大核心平臺做這件事情,一個平臺是分布式數(shù)據(jù)倉庫TDW,它基于開源的Hadoop和Hive進行了大量優(yōu)化和改造。第二個是一套實時推薦的平臺——APOLLO,它有一些實時介入系統(tǒng)、流式計算系統(tǒng)、一個分布式的存儲系統(tǒng),同時還有一個很重要的推薦引擎。
8月30-31日,肖磊會在SDCC 2013(中國軟件開發(fā)者大會)上擔任演講嘉賓,更多內(nèi)容請關(guān)注大會官網(wǎng)。
最后,來自美國桉樹系統(tǒng)公司大中華區(qū)認證講師楊大江,帶來了“合理利用桉樹-Hadoop構(gòu)建大數(shù)據(jù)平臺”的演講,主要介紹了如何結(jié)合云計算平臺和桉樹構(gòu)建一個大數(shù)據(jù)系統(tǒng)。
桉樹+Hadoop
桉樹的架構(gòu)主要分為三層:第一層叫云控制器;第二層是區(qū)域,桉樹分了三個數(shù)據(jù)中心,每一個數(shù)據(jù)中心都是一個可用區(qū)域;第三層是大量的虛擬化,以虛擬化技術(shù)為核心的一個云體系,桉樹的虛擬化支持多種技術(shù)。當構(gòu)建一個大數(shù)據(jù)平臺的時候,桉樹和Hadoop一個是解決分的問題,一個解決合的問題。桉樹是以虛擬化為核心的,解決虛擬化資源調(diào)度問題,它和一般的虛擬化有一定區(qū)別。一般虛擬機是把單機進行虛擬化,桉樹考慮把整個集群虛擬化。
云計算有一個重要的思想,單節(jié)點是不可靠的,隨時可扔。要靠一個軟件系統(tǒng)保證集群,這兩個系統(tǒng)結(jié)合優(yōu)勢構(gòu)建大數(shù)據(jù)系統(tǒng)的優(yōu)勢主要有:
提升Hadoop部署速度
提供Hadoop高可用和容錯能力
提升Hadoop環(huán)境資源利用率
安全隔離讓Hadoop落地更安全
實現(xiàn)Hadoop云端多租戶
集群易于維護和遷移
使用異構(gòu)集群實現(xiàn)高密度存儲和計算。
應用案例
這里介紹一個期貨公司的案例,這個期貨公司共分三個中心,一個鎮(zhèn)江中心、一個鄭州中心,還有一個天津中心。這家公司橫跨了農(nóng)產(chǎn)品建議和重金屬交易行業(yè)。他們建立這個決策系統(tǒng),是為了能夠?qū)崟r分析用戶的交易行為,預測其結(jié)果,規(guī)避可能帶給公司的風險。
這個系統(tǒng)整體叫做數(shù)據(jù)容器,也就是說這個平臺將來不僅僅給自己公司用,而是通過API給各種客戶端做使用。將來在云端開發(fā)各種數(shù)據(jù)應用,都可以直接調(diào)用。系統(tǒng)最上面用的都是桉樹的產(chǎn)品。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關(guān)鍵? 在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)家族中,長短期記憶網(wǎng)絡(luò)(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅(qū)動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅(qū)動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結(jié)束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結(jié)束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領(lǐng)域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權(quán)威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(luò)(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅(qū)動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉(zhuǎn)日期:解鎖數(shù)據(jù)處理的關(guān)鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎(chǔ) ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅(qū)動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03