
BAT的互聯(lián)網大數(shù)據(jù)應用有何不同_數(shù)據(jù)分析師
互聯(lián)網行業(yè)在大數(shù)據(jù)的積累和應用以百度、騰訊和阿里巴巴最為值得關注。百度、騰訊和阿里巴巴在大數(shù)據(jù)的應用上雖然有共同的地方,但由于各自的數(shù)據(jù)來源和商業(yè)模式的不同,其大數(shù)據(jù)應用也有不同的特色。本文將分析他們擁有的數(shù)據(jù)資產和應用,以方便大家了解大型互聯(lián)網企業(yè)的大數(shù)據(jù)現(xiàn)狀和未來策略。
從數(shù)據(jù)類型看,騰訊數(shù)據(jù)最為全面,這與其互聯(lián)網業(yè)務全面相關,其最為突出的是社交數(shù)據(jù)和游戲數(shù)據(jù),其中:社交數(shù)據(jù)最為核心的是關系鏈數(shù)據(jù)、用戶間的互動數(shù)據(jù)、用戶產生的文字、圖片和視頻內容;游戲數(shù)據(jù)主要包括大型網游數(shù)據(jù)、網頁游戲數(shù)據(jù)和手機游戲數(shù)據(jù),游戲數(shù)據(jù)中最為核心的是游戲的活躍行為數(shù)據(jù)和付費行為數(shù)據(jù),騰訊的數(shù)據(jù)最大的特點是基于社交的各種用戶行為和娛樂數(shù)據(jù)。阿里最為突出的是電商數(shù)據(jù),尤其是用戶在淘寶和天貓上的商品瀏覽、搜索、點擊、收藏和購買等數(shù)據(jù),其數(shù)據(jù)最大特點是從瀏覽到支付形成的用戶漏斗式轉化數(shù)據(jù)。百度的數(shù)據(jù)以用戶搜索的關鍵詞、爬蟲抓取的網頁、圖片和視頻數(shù)據(jù)為主,百度的數(shù)據(jù)特點是通過搜索關鍵詞更直接反映用戶興趣和需求,百度的數(shù)據(jù)以非結構化數(shù)據(jù)更多。
百度、阿里巴巴和騰訊的數(shù)據(jù)應用場景都有共同的體系,該體系一共分為七層,代表了企業(yè)不同層面的數(shù)據(jù)價值應用場景,形成了企業(yè)運營的數(shù)據(jù)價值金字塔:
(1)數(shù)據(jù)基礎平臺層。金字塔的最底層也是整個金字塔的基礎層,如果基礎層搭建不好,上面的應用層也很難在企業(yè)運營中發(fā)揮效果,這一層的技術目標是實現(xiàn)數(shù)據(jù)的有效存儲、計算和質量管理;業(yè)務目標是把企業(yè)的所有用戶(客戶)數(shù)據(jù)用唯一的ID串起來,包括用戶(客戶)的畫像(如性別、年齡等)、行為以及興趣愛好等,以達到全面的了解用戶(客戶)的目的;
(2)業(yè)務運營監(jiān)控層。這一層首要的是搭建業(yè)務運營的關鍵數(shù)據(jù)體系,在此基礎上通過智能化模型開發(fā)出來的數(shù)據(jù)產品,監(jiān)控關鍵數(shù)據(jù)的異動,通過各種分析模型等可以快速定位數(shù)據(jù)異動的原因,輔助運營決策;
(3)用戶/客戶體驗優(yōu)化層。這一層主要是通過數(shù)據(jù)來監(jiān)控和優(yōu)化用戶/客戶的體驗問題。這里面既運用了結構化的數(shù)據(jù)來監(jiān)控,也運用非結構化的數(shù)據(jù)(如文本)來監(jiān)控體驗的問題。前者更多的是應用各種用戶(客戶)體驗監(jiān)測的模型或者工具來實現(xiàn),后者更多的是通過監(jiān)測微博、論壇和企業(yè)內部的客戶反饋系統(tǒng)的文本來發(fā)現(xiàn)負面的口碑,以及時的優(yōu)化產品或服務;
(4)精細化運營和營銷層。這一層主要通過數(shù)據(jù)驅動業(yè)務精細化運營和營銷。主要可以分為四方面:第一,構建基于用戶的數(shù)據(jù)提取和運營工具,以方便運營和營銷人員通過人群定向把客戶提取出來,從而對客戶進行營銷或運營活動;第二方面,通過數(shù)據(jù)挖掘的手段提升客戶對活動的響應;第三,通過數(shù)據(jù)挖掘的手段進行客戶生命周期管理;第四,主要是用個性化推薦算法基于用戶不同的興趣和需求推薦不同的商品或者產品,以實現(xiàn)推廣資源效率和效果最大化,如淘寶商品的個性化推薦;
(5)數(shù)據(jù)對外服務和市場傳播層面。數(shù)據(jù)對外服務一般為服務該互聯(lián)網企業(yè)的客戶或用戶,如百度通過提供百度輿情、百度代言人、百度指數(shù)等服務其廣告主客戶;淘寶通過數(shù)據(jù)魔方、淘寶情報和在云端等產品服務其客戶;騰訊通過騰訊分析和騰訊云分析等服務其開放商客戶。在市場傳播層面,主要通過有趣的數(shù)據(jù)信息圖譜和數(shù)據(jù)可視化產品來實現(xiàn)(如淘寶指數(shù)、百度指數(shù)、百度春節(jié)遷徙地圖)。
(6)經營分析層面。主要通過分析師對大數(shù)據(jù)進行統(tǒng)計,形成經驗分析周報、月報和季度報告等,對用戶經營情況和收入完成等情況進行分析,發(fā)現(xiàn)問題,優(yōu)化經營策略。
(7)戰(zhàn)略分析層面。這方面既要結合內部的大數(shù)據(jù)形成決策層的數(shù)據(jù)視圖,也要結合外部數(shù)據(jù)尤其是各種競爭情報監(jiān)控數(shù)據(jù)、國外趨勢研究數(shù)據(jù)來輔助決策層進行戰(zhàn)略分析。
雖然百度、阿里巴巴和騰訊在企業(yè)運營的數(shù)據(jù)價值的應用體系上有共同的特點,但由于企業(yè)的商業(yè)模式以及數(shù)據(jù)資產不同,他們在整體的大數(shù)據(jù)發(fā)展策略也有顯著的不同。
百度大數(shù)據(jù)最重要的是來源是通過爬蟲搜集的100多個國家的近萬億網頁數(shù)據(jù),數(shù)據(jù)量是在EB級的規(guī)模。百度的數(shù)據(jù)非常多樣化,其收集的數(shù)據(jù)既有為非結構化的或者半結構化的數(shù)據(jù),包括網頁數(shù)據(jù)、視頻和圖片等數(shù)據(jù),也有結構化的數(shù)據(jù),如用戶的點擊行為數(shù)據(jù),廣告客戶的付費行為數(shù)據(jù)等。
百度大數(shù)據(jù)主要服務三類人群:一類是互聯(lián)網網民,通過大數(shù)據(jù)和自然語言處理技術讓網民的搜索更加準確;第二類是廣告主,通過大數(shù)據(jù)讓廣告主的廣告和搜索關鍵詞的匹配度更高,或者和網民正在看的網頁內容匹配度更高;第三類是,也是在重點推進的百度大數(shù)據(jù)引擎,重點是服務傳統(tǒng)行業(yè)擁有一定規(guī)模數(shù)據(jù)的企業(yè)。
百度大數(shù)據(jù)引擎代表了互聯(lián)網企業(yè)數(shù)據(jù)服務能力開放和合作的趨勢,百度大數(shù)據(jù)引擎由以下三方面構成:
開放云:百度的大規(guī)模分布式計算和超大規(guī)模存儲云,開放云大數(shù)據(jù)開放的是基礎設施和硬件能力。過去的百度云主要面向開發(fā)者,大數(shù)據(jù)引擎的開放云則是面向有大數(shù)據(jù)存儲和處理需求的“大開發(fā)者”。據(jù)百度相關人員稱,百度開放云還擁有CPU利用率高、彈性高、成本低等特點。百度是全球首家大規(guī)模商用ARM服務器的公司,而ARM架構的特征是能耗小和存儲密度大,同時百度還是首家將GPU(圖形處理器)應用在機器學習領域的公司,實現(xiàn)了能耗節(jié)省的目的。
數(shù)據(jù)工廠:數(shù)據(jù)工廠為百度將海量數(shù)據(jù)組織起來的軟件能力,與數(shù)據(jù)庫軟件的作用類似,不同的是數(shù)據(jù)工廠是被用作處理TB級甚至更大的數(shù)據(jù)。百度數(shù)據(jù)工廠支持超大規(guī)模異構數(shù)據(jù)查詢,支持SQL-like以及更復雜的查詢語句,支持各種查詢業(yè)務場景。同時百度數(shù)據(jù)工廠還將承載對于TB級別大表的并發(fā)查詢和掃描,大查詢、低并發(fā)時每秒可達百GB。
百度大腦:百度大腦將百度此前在人工智能方面的能力開放出來,主要是大規(guī)模機器學習能力和深度學習能力。此前它們被應用在語音、圖像、文本識別,以及自然語言和語義理解方面,并通過百度Inside等平臺開放給了智能硬件?,F(xiàn)在這些能力將被用來對大數(shù)據(jù)進行智能化的分析、學習、處理、利用,并對外開放。
百度將基礎設施能力、軟件系統(tǒng)能力以及智能算法技術打包在一起,通過大數(shù)據(jù)引擎開放出來之后,擁有大數(shù)據(jù)的行業(yè)可以將自己的數(shù)據(jù)接入到這個引擎進行處理。從架構來看,企業(yè)或組織也可以只選擇三件套中的一種來使用,例如數(shù)據(jù)存放在自己的云,但要運用百度大腦的一些智能算法或者數(shù)據(jù)存放在百度云,自己寫算法。
我們可以從兩方面來具體看百度大數(shù)據(jù)引擎的作用:
(1)對于政府機構:如交通部門有車聯(lián)網、物聯(lián)網、路網監(jiān)控、船聯(lián)網、碼頭車站監(jiān)控等地方的大數(shù)據(jù),如果這些數(shù)據(jù)與百度的搜索記錄、全網數(shù)據(jù)、LBS數(shù)據(jù)結合,在利用百度大數(shù)據(jù)引擎的大數(shù)據(jù)能力,則可以實現(xiàn)智能路徑規(guī)劃和運力管理;衛(wèi)生部門擁有流感法定報告數(shù)據(jù)、全國流感樣病例哨點監(jiān)測和病原學監(jiān)測數(shù)據(jù),如果和百度的搜索記錄及全網數(shù)據(jù)結合,便可進行流感預測、疫苗接種指導。
(2)對于企業(yè):很多企業(yè)也擁有海量大數(shù)據(jù),不過很多企業(yè)的大數(shù)據(jù)處理和挖掘能力比較弱,如果應用百度大數(shù)據(jù)引擎,則可以對海量數(shù)據(jù)進行可靠低成本的存儲,進行智能化的由淺入深的價值挖掘。如在2014年4月的百度技術開放日上,中國平安便介紹了如何利用百度的大數(shù)據(jù)能力加強消費者理解和預測,細分客戶群制定個性化產品和營銷方案。
阿里巴巴大數(shù)據(jù)整體發(fā)展方向是以激活生產力為目的的DT(data technology,數(shù)據(jù)技術驅動)數(shù)據(jù)時代發(fā)展。阿里巴巴大數(shù)據(jù)未來將由“基于云計算的數(shù)據(jù)開放+大數(shù)據(jù)工具化應用”組成:
(1)基于云計算的數(shù)據(jù)開放。云計算使中小企業(yè)可以在阿里云上獲得數(shù)據(jù)存儲、數(shù)據(jù)處理服務,也可以構建自己的數(shù)據(jù)應用。云計算是數(shù)據(jù)開放的基礎,云計算可以為全球的數(shù)據(jù)開發(fā)者提供數(shù)據(jù)工作平臺,阿里分布式的存儲平臺和在這個平臺上的算法工具,可以更好的為數(shù)據(jù)開發(fā)者所用;同時,阿里巴巴還需要做好數(shù)據(jù)的脫敏,把數(shù)據(jù)的商業(yè)定義,每個標簽打得足夠清晰,能夠讓全球的數(shù)據(jù)開發(fā)者在阿里巴巴平臺展開數(shù)據(jù)思維,讓數(shù)據(jù)為政府所用、消費者所用以及行業(yè)所用。阿里的大數(shù)據(jù)開放之后,線上線下的數(shù)據(jù)能夠串聯(lián)起來,所有人都是數(shù)據(jù)提供方,也是數(shù)據(jù)的使用者。
(2)在大數(shù)據(jù)應用上,馬云已經在整個數(shù)據(jù)應用上確定了兩個方針:
第一個方針:從IT到DT(數(shù)據(jù)技術),DT就是點燃整個數(shù)據(jù)和激發(fā)整個數(shù)據(jù)的力量,被管理所用,被社會所用,被銷售所用,為制造業(yè)所用,為消費者信用所用。前文已經分析道,阿里巴巴的數(shù)據(jù)資產是以電商為主,其中,淘寶和天貓每天會產生豐富多樣的數(shù)據(jù),阿里巴巴已經沉淀了包括交易、金融、生活服務等多種類型的數(shù)據(jù)。這些數(shù)據(jù)能夠幫助阿里巴巴進行數(shù)據(jù)化運營(如下圖)。
另外一個其最為重要的應用是金融領域——小微金融。在小微金融企業(yè)融資領域。由于銀行無法掌握小微企業(yè)真實的經營數(shù)據(jù),不僅導致很多企業(yè)無法拿到貸款,還因為數(shù)據(jù)類型的不足導致整個判斷流程過長,阿里已經通過其電商數(shù)據(jù)中的交易、信用、SNS等多種數(shù)據(jù)來決定是否可以發(fā)放貸款以及放貸的額度。
第二個方針:讓阿里巴巴的數(shù)據(jù)、讓阿里巴巴的工具能夠成為中國商業(yè)的基礎設施。阿里巴巴已經開始在轉型,阿里將由自己直接面對消費者變成支持網商面對消費者,阿里會根據(jù)其已有的運營和數(shù)據(jù)經驗,開發(fā)更多的工具,幫助網商成長,讓網商們更懂得用最好的工具、服務去服務好消費者。正如馬云所言“我相信沒有一個網商不希望擁有自己的客戶,沒有一個網商不希望知道客戶對自己的體驗到底好還是壞,如何持久的擁有這些客戶,我們覺得一個國家的經濟,應該讓給企業(yè)家群體去做,我們覺得淘寶網商未來的經濟,是應該留給網商們去決定,而不是我們去做決定”。
騰訊的大數(shù)據(jù)目前更多的是為騰訊企業(yè)內部運營服務,相對于阿里和百度,數(shù)據(jù)開放程度并不高。因此,對于騰訊我們主要重點介紹騰訊大數(shù)據(jù)在服務企業(yè)內部的應用場景和服務。
騰訊90%以上的數(shù)據(jù)已經實現(xiàn)集中化管理,數(shù)據(jù)集中在數(shù)據(jù)平臺部,有超過100多個產品的數(shù)據(jù)已經集中管理起來,而且是集中存儲在騰訊自研數(shù)據(jù)倉庫(TDW)。騰訊大數(shù)據(jù)從數(shù)據(jù)應用的不同環(huán)節(jié)可以分為四個層面,包括數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)管理和數(shù)據(jù)可視化:
(1)數(shù)據(jù)分析層有四個產品:自助分析、用戶畫像、實時多維度分析和異動智能定位工具。自助分析可以幫助非技術人員通過簡單的條件配置實現(xiàn)數(shù)據(jù)的統(tǒng)計和展示功能;用戶畫像則是對某一群用戶或者某一業(yè)務的用戶實現(xiàn)自動化的人群畫像;實時多維度分析工具則是可以對某一指標可以實現(xiàn)實時的多個維度的切分,方便分析人員從不同角度對某一指標進行多維度分析;異動智能定位工具則實現(xiàn)數(shù)據(jù)異動問題的智能化定位。
(2)數(shù)據(jù)挖掘層面的產品應用有:精準廣告系統(tǒng)、用戶個性化推薦引擎和客戶生命周期管理。精準廣告系統(tǒng)如廣點通,是基于騰訊大社交平臺的海量數(shù)據(jù)為基礎,通過精準推薦算法,以智能定向推廣位導向實現(xiàn)廣告精準投放;用戶個性化推薦引擎根據(jù)每位用戶的興趣和喜好,通過個性化推薦算法(協(xié)同過濾、基于內容推薦、圖算法、貝葉斯等),實現(xiàn)產品的個性化推薦需求;客戶生命周期管理系統(tǒng),則是基于大數(shù)據(jù),根據(jù)用戶/客戶的所處的不同生命周期進行數(shù)據(jù)挖掘,建立預測、預警和用戶特征模型,以根據(jù)用戶/客戶所處的不同生命周期特點進行精細化運營和營銷。
(3)在數(shù)據(jù)管理層面則有:TDW(騰訊數(shù)據(jù)倉庫)、TDBank(數(shù)據(jù)銀行)、元數(shù)據(jù)管理平臺和任務調度系統(tǒng)和數(shù)據(jù)監(jiān)控。這一層面主要是實現(xiàn)數(shù)據(jù)的高效集中存儲、數(shù)據(jù)的業(yè)務指標定義管理、數(shù)據(jù)質量管理、計算任務的及時調度和計算以及數(shù)據(jù)問題的監(jiān)控和告警。
(4)在數(shù)據(jù)可視化層面有:自助報表工具、騰訊羅盤、騰訊分析和騰訊云分析等工具。自助報表工具可以自助化的實現(xiàn)結構相對簡單和邏輯相對簡單的報表。騰訊羅盤分為內部版和外部版,內部版則是服務于騰訊內部用戶(產品經理、運營人員和技術人員等)的高效報表工具,外部版則是服務于騰訊合作伙伴如開發(fā)商的報表工具。騰訊分析是網站分析工具,幫助網站主進行網站的全方位分析。騰訊云分析則是幫助應用開發(fā)商決策和運營優(yōu)化的分析工具。
總的來看,百度、阿里巴巴和騰訊三大互聯(lián)網企業(yè)都擁有大數(shù)據(jù),三大互聯(lián)網巨頭的數(shù)據(jù)都用來優(yōu)化自己業(yè)務的運營效果,從這個層面看,其數(shù)據(jù)價值應用場景比較類似。但由于其業(yè)務和商業(yè)模式的不同決定了三者數(shù)據(jù)資產的不同,也決定了三者未來大數(shù)據(jù)策略的不同,尤其是基于大數(shù)據(jù)的開放和合作角度看,百度和阿里巴巴相對更加開放。對于重視大數(shù)據(jù)開放和合作的互聯(lián)網企業(yè),他們最為期待的是借著大數(shù)據(jù)開放的策略,與更多的傳統(tǒng)行業(yè)交換更多的數(shù)據(jù),從而更好的豐富其在線下數(shù)據(jù),形成線上和線下數(shù)據(jù)的協(xié)同,從中拓展新的商業(yè)模式,如智能硬件和大數(shù)據(jù)健康。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經網絡(RNN)家族中,長短期記憶網絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網絡(LSTM)作為循環(huán)神經網絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調研數(shù)據(jù)中的深度應用? 市場調研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03