
大數(shù)據(jù)如何玩兒?這是BAT的不同思路
去年5月筆者曾撰文闡述百度、阿里和騰訊這三個(gè)互聯(lián)網(wǎng)巨無霸開始挖掘大數(shù)據(jù)。一年過去,擁有海量數(shù)據(jù)的公司已在多個(gè)領(lǐng)域嘗試對(duì)掌握的數(shù)據(jù)進(jìn)行利用,大數(shù)據(jù)意識(shí)和能力進(jìn)步飛快,體系和工具日趨成熟。
大數(shù)據(jù)應(yīng)用實(shí)踐,碩果累累
百度在大數(shù)據(jù)方面讓人印象深刻的有百度遷徙這樣的公益項(xiàng)目,應(yīng)用在民生和新聞等領(lǐng)域。最新動(dòng)態(tài)是,百度網(wǎng)盟利用基于大數(shù)據(jù)的CTR(廣告內(nèi)容匹配)數(shù)據(jù),站長(zhǎng)的平均收入提升70%。
阿里則對(duì)外宣稱已經(jīng)擁有100PB數(shù)據(jù)并以令人欣喜的速度增長(zhǎng),馬云最新的內(nèi)部郵件將阿里戰(zhàn)略闡述為云端+大數(shù)據(jù),阿里要進(jìn)入數(shù)據(jù)時(shí)代。
騰訊廣點(diǎn)通平臺(tái)不乏亮點(diǎn)應(yīng)用,例如美麗說借助廣點(diǎn)通在移動(dòng)端取得豐收,小米手機(jī)與QQ空間合作更是基于社交數(shù)據(jù)營(yíng)銷的經(jīng)典。
百度、阿里均已將大數(shù)據(jù)升級(jí)為公司戰(zhàn)略,李彥宏、雷軍等互聯(lián)網(wǎng)代表人物在兩會(huì)時(shí)都曾有建言,推動(dòng)政府的大數(shù)據(jù)意識(shí)和開放,大數(shù)據(jù)正在從理論走向?qū)嵺`,從專業(yè)領(lǐng)域走向全民應(yīng)用的階段。
互聯(lián)網(wǎng)牽頭大數(shù)據(jù)的必然性
為什么國(guó)內(nèi)的大數(shù)據(jù)應(yīng)用,只有幾個(gè)互聯(lián)網(wǎng)巨頭取得成就呢?是因?yàn)樗鼈儞碛凶疃嗟挠脩簟⒘髁亢蛿?shù)據(jù)嗎?答案是否定的。因?yàn)樗嘘P(guān)于大數(shù)據(jù)的論斷都認(rèn)為,大數(shù)據(jù)并不在于大。質(zhì)量、性質(zhì)以及誰(shuí)擁有它,將決定大數(shù)據(jù)能被挖掘出來的價(jià)值和難度。
物聯(lián)網(wǎng)傳感器、視頻監(jiān)控設(shè)備時(shí)時(shí)刻刻都在收集海量數(shù)據(jù),但價(jià)值沒有微博大,因?yàn)閿?shù)據(jù)難以變現(xiàn)。運(yùn)營(yíng)商擁有用戶通信相關(guān)數(shù)據(jù),從語(yǔ)音到短信再到位置,量大過任何一個(gè)互聯(lián)網(wǎng)巨頭。只能白白浪費(fèi),因?yàn)檫\(yùn)營(yíng)商不被允許也無能力去利用這些數(shù)據(jù)。與之類似,政府部門、軟件企業(yè)均擁有大數(shù)據(jù),卻只能任其沉睡。
之所以BAT走在國(guó)內(nèi)大數(shù)據(jù)應(yīng)用的前列,即與其擁有的數(shù)據(jù)性質(zhì)有管,與互聯(lián)網(wǎng)企業(yè)的技術(shù)基因、開放創(chuàng)新和積極進(jìn)取有關(guān)。
大數(shù)據(jù)利用難點(diǎn)在于技術(shù)。從數(shù)據(jù)的收集到存儲(chǔ)到清洗,再到脫敏,歸類,標(biāo)簽化、結(jié)構(gòu)化,以及最后的建模分析、挖掘利用,均是技術(shù)活兒。需要服務(wù)器集群、數(shù)據(jù)利用模型和數(shù)據(jù)處理算法來保障,然后才是挖掘出來的結(jié)果的包裝、變現(xiàn)。
相對(duì)其他擁有大數(shù)據(jù)的金主來說,互聯(lián)網(wǎng)企業(yè)的技術(shù)甩開它們幾條街。運(yùn)營(yíng)商技術(shù)是外包;銀行的技術(shù)外包居多;其他公共部門例如政府、交通、教育、能源等行業(yè),技術(shù)對(duì)他們是遙遠(yuǎn)的名詞。
還有動(dòng)機(jī)?;ヂ?lián)網(wǎng)企業(yè)的服務(wù)產(chǎn)品幾乎是免費(fèi),必須通過其他模式賺錢。過去是廣告、游戲和增值這三種模式,到了移動(dòng)端廣告模式遇到瓶頸,需要新模式,抑或加強(qiáng)原有模式。這兩點(diǎn)上,大數(shù)據(jù)都會(huì)起到大的作用。
BAT大數(shù)據(jù)思路迥異
BAT三家的數(shù)據(jù)各有特色。
百度是基于用戶搜索行為的需求數(shù)據(jù),阿里掌握著交易以及信用數(shù)據(jù),騰訊則掌握著社交關(guān)系數(shù)據(jù)。各有千秋。它們對(duì)大數(shù)據(jù)的應(yīng)用方向并不相同。百度和阿里更為激進(jìn)。騰訊觀望多過行動(dòng),也可能是說得少做得多。
首先是動(dòng)機(jī)。
百度收入95%以上來自廣告,淘寶的主要收入模式也是廣告。百度、淘寶和CCTV是中國(guó)前三大廣告投放陣地。騰訊主要收入來自游戲和社交增值業(yè)務(wù),廣告收入占比僅為三成左右。
本階段大數(shù)據(jù)變現(xiàn)的主要途徑是精準(zhǔn)廣告,這契合百度和阿里的訴求,兩家將大數(shù)據(jù)升級(jí)為公司戰(zhàn)略。
其次是技術(shù)。
搜索引擎是技術(shù)驅(qū)動(dòng),百度和其創(chuàng)始人李彥宏最具技術(shù)基因。馬云對(duì)外宣稱因?yàn)槠洳欢夹g(shù)所以阿里技術(shù)最強(qiáng)。只有騰訊不怎么強(qiáng)調(diào)技術(shù),一直強(qiáng)調(diào)產(chǎn)品能力。
大數(shù)據(jù)是技術(shù)活兒,百度和阿里這兩位自認(rèn)為技術(shù)很強(qiáng)的玩家探索在先符合常理。百度和阿里在大數(shù)據(jù)技術(shù)已經(jīng)進(jìn)行較多布局,從人才到架構(gòu)到基礎(chǔ)設(shè)施再到技術(shù)理論。
百度有深度學(xué)習(xí)研究院、高價(jià)聘請(qǐng)大數(shù)據(jù)領(lǐng)域人才以及與高校合作,正在建設(shè)亞洲最大云計(jì)算機(jī)房;阿里有飛天計(jì)劃,有先進(jìn)的跨機(jī)房5k集群、Apsara分布式計(jì)算系統(tǒng),還有數(shù)據(jù)委員會(huì)這樣的架構(gòu)。
幾家在云計(jì)算平臺(tái)上的不同態(tài)度可以佐證我的觀點(diǎn)。云平臺(tái)和大數(shù)據(jù)是連體嬰?!耙苿?dòng)端”、合作伙伴和用戶個(gè)人的數(shù)據(jù),均需要“云”來收集、存儲(chǔ)和處理。要掌握大數(shù)據(jù),一定要具備承載數(shù)據(jù)的開放的云。
阿里云09年成立,百度云12年推出,分別對(duì)應(yīng)到IaaS模式和PaaS(Amazon VS Google)。它們的云服務(wù)在向開發(fā)者和用戶提供基礎(chǔ)設(shè)施、云端服務(wù)的同時(shí),收集第三方網(wǎng)站、應(yīng)用、硬件和用戶的數(shù)據(jù)。百度遷徙能夠生效便是得益于第三方App為百度貢獻(xiàn)位置數(shù)據(jù)。
騰訊云去年9月才推出,起步晚了點(diǎn)。雖然騰訊開放平臺(tái)成熟,但開放平臺(tái)更多是分享騰訊的用戶和資源出來,目的不是收集數(shù)據(jù)。而且開放平臺(tái)是運(yùn)營(yíng)、合作、生態(tài)層面的事,云平臺(tái)才是技術(shù)問題。
最后是位置。
典型的互聯(lián)網(wǎng)交易場(chǎng)景大概是這樣的,用戶在聊天、社交、娛樂的過程中,會(huì)被吸引注意力,關(guān)注“興趣”,抑或因?yàn)榕d趣而發(fā)現(xiàn)新的信息。然后用戶去了解、去尋找想要的東西(需求、欲望、找到所求),最后在網(wǎng)上完成交易(電商和O2O)。
這里引用一下漏斗模型——一個(gè)悠久經(jīng)典的營(yíng)銷概念。在這個(gè)模型里,用戶消費(fèi)時(shí)的大致決策路徑是從注意(attention)、興趣(interest)、欲望(desire)最后到行動(dòng)(action)。
上圖是被倒過來的漏洞。漏斗越到底部轉(zhuǎn)化率越高。阿里在欲望和行動(dòng)之間,百度在興趣和欲望之間,騰訊則在漏洞頂部。
廣告收費(fèi)模式可以看出三家的位置差異。百度是CPC,按照點(diǎn)擊次數(shù)付費(fèi)(不管點(diǎn)擊后的行為),阿里淘寶客等廣告則直接可以對(duì)應(yīng)到購(gòu)買行為,CPA(按實(shí)際效果)和CPS(按效果傭金)居多。騰訊門戶、QQ聊天Banner廣告更親睞于CPM或者CPT(按照展示次數(shù)或者時(shí)長(zhǎng)),廣點(diǎn)通是CPA,但亮點(diǎn)案例集中在應(yīng)用下載領(lǐng)域,而不是交易領(lǐng)域。
三家都不希望只處于某一個(gè)環(huán)節(jié),而是期望上中下通吃。百度有貼吧這樣的興趣社交產(chǎn)品,有視頻這種注意力型業(yè)務(wù),還推出了直接在結(jié)果頁(yè)下單的“微購(gòu)”,上下延展;騰訊重組了搜索業(yè)務(wù)(與搜狗合并)和電商業(yè)務(wù)(與京東合并),向下的機(jī)會(huì)還有;阿里投資微博、布局智能電視以及做導(dǎo)購(gòu)網(wǎng)站做微淘,努力在向上走。
幾個(gè)互聯(lián)網(wǎng)巨頭的動(dòng)機(jī)、技術(shù)和位置的不同,在大數(shù)據(jù)應(yīng)用上的思路也不同:騰訊蜻蜓點(diǎn)水,阿里布局為先,百度技術(shù)至上。相同的是,幾家都在想方設(shè)法籠絡(luò)更多的數(shù)據(jù),收集數(shù)據(jù)是第一階段,形成收集數(shù)據(jù)的能力和機(jī)制是第二階段,第三階段才是數(shù)據(jù)挖掘,目前BAT三家均處于從第二階段到第三階段之間,一旦大數(shù)據(jù)應(yīng)用全面進(jìn)入第三階段,積累更深、投入更多的百度或?qū)⒂型@出優(yōu)勢(shì)。
AppStore和iPhone的誕生,將人們帶入了智能手機(jī)和移動(dòng)互聯(lián)網(wǎng)時(shí)代,顛覆了傳統(tǒng)的軟件業(yè)和手機(jī)業(yè)。未來,對(duì)大數(shù)據(jù)商業(yè)價(jià)值的發(fā)掘?qū)⒔o互聯(lián)網(wǎng)公司拓展出更大的增長(zhǎng)空間,甚至有可能催生出全新的商業(yè)模式和硬件產(chǎn)品,就像AppStore和iPhone那樣,給人們的工作和生活方式帶來顛覆性的變化。
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫(kù)管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫(kù)表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫(kù)表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫(kù))處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫(kù)表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10