
阿里巴巴的大數(shù)據(jù)夢
“為了迎接即將到來的大數(shù)據(jù)時代,各大互聯(lián)網(wǎng)公司都在爭分奪秒。阿里巴巴在公布大數(shù)據(jù)分享平臺之后的半年中,也全面啟動了攻勢。但即使是這個行業(yè)的先行者,離大數(shù)據(jù)時代也還有不小的距離?!?/span>
▲阿里巴巴正在從數(shù)據(jù)中掘金
剛剛過去的2012年,秦予有個很大的遺憾,就是沒能招聘到自己想要的數(shù)據(jù)科學家,浪費了公司給的招人名額。他是支付寶用戶價值創(chuàng)新中心的負責人。這個中心是支付寶大數(shù)據(jù)業(yè)務的核心部門。
阿里巴巴2012年的進人指標只有200個,具體到支付寶公司,基本是只出不進,只有秦予所在的部門得到了難得的兩個進人名額。但她只招到了一個合適的。
事實上,各大互聯(lián)網(wǎng)公司都在尋找這樣的人。騰訊網(wǎng)絡媒體事業(yè)群總裁劉勝義2012年年中就公開表示:隨著用戶各類數(shù)據(jù)的累積,大數(shù)據(jù)時代已經(jīng)來臨。騰訊各大產(chǎn)品線中都擁有自己的數(shù)據(jù)挖掘團隊。而騰訊最新財報顯示,QQ用戶數(shù)接近8億人,活躍用戶數(shù)近2億人。
阿里集團2012年7月10日就已宣布,設立首席數(shù)據(jù)官崗位(CDO),負責推進“數(shù)據(jù)分享平臺”戰(zhàn)略。同日,阿里發(fā)布“聚石塔”平臺,為天貓、淘寶平臺上的電商及電商服務商等提供數(shù)據(jù)云服務。
阿里巴巴集團表示,如何挖掘、分析和運用這些數(shù)據(jù),并和全社會分享,是這個戰(zhàn)略的核心所在。阿里巴巴是年交易額過萬億元的中國最大的電子商務平臺,目前有兩萬人左右,其中近千人從事數(shù)據(jù)業(yè)務工作。
可以看到,從數(shù)據(jù)中掘金,已經(jīng)成為各大互聯(lián)網(wǎng)公司的共識。但在這個即將到來的大數(shù)據(jù)時代,這些公司具體將如何推進呢?
“離大數(shù)據(jù)時代還有不小距離”
秦予要找的并不是一般的數(shù)據(jù)分析師。
“國內(nèi)不缺數(shù)據(jù)挖掘人才,但很難找到數(shù)據(jù)科學家?!鼻赜鑼δ戏街苣┯浾哒f,秦予的團隊有7個人,他們在支付寶內(nèi)部被稱為“數(shù)據(jù)科學家”。
一般的數(shù)據(jù)分析師是根據(jù)支付寶的各種數(shù)據(jù)進行分析,給公司決策層和各個業(yè)務部門提供咨詢支持。這也是目前很多公司都設有的商業(yè)智能部的主要職能。但數(shù)據(jù)科學家們做的事情是開發(fā)出具體可以銷售的商用化的大數(shù)據(jù)產(chǎn)品。
所謂大數(shù)據(jù),一般是1000T以上的數(shù)據(jù),如果按照一般機器配置,相當于400臺到500臺電腦。對這些數(shù)據(jù)信息的商業(yè)化開發(fā)就是大數(shù)據(jù)產(chǎn)業(yè)鏈。
《大數(shù)據(jù)時代》一書中提到,未來,數(shù)據(jù)將會像土地、石油和資本一樣,成為經(jīng)濟運行中的根本性資源。數(shù)據(jù)科學家被認為是下一個十年最熱門的職業(yè)。
而大數(shù)據(jù)跟個人最為密切的關系是對隱私的可能侵入。比如,亞馬遜監(jiān)視著我們的購物習慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習慣,微博似乎對我們和我們朋友的關系無所不知,QQ圈子能給你推薦你不愿意再見面的某個女生的照片和動態(tài)信息。
秦予是從美國歸國的計算機模擬博士后,在摩根大通和匯豐銀行工作過多年,2010年加入支付寶公司,負責支付寶和淘寶集市的大數(shù)據(jù)業(yè)務。支付寶公司擁有中國僅次于銀行業(yè)的個人數(shù)據(jù)信息。
“阿里巴巴有海量的數(shù)據(jù),對于做大數(shù)據(jù)的人來說,阿里巴巴是中國最好的平臺,很吸引人。因為我的金融背景所以選擇支付寶?!鼻赜鑼δ戏街苣┯浾哒f。
回國進入大數(shù)據(jù)行業(yè)之后,秦予參加了很多大數(shù)據(jù)的論壇和研討會,她最大的體會是,看到的新東西很少。
“別說大數(shù)據(jù),連小數(shù)據(jù)都很少?,F(xiàn)在很多公司說的大數(shù)據(jù),大都是數(shù)據(jù)的搜集和整理。這是底層的工作。”秦予說,“中國離大數(shù)據(jù)時代還有不小距離?!?/span>
即使是作為國內(nèi)大數(shù)據(jù)業(yè)務的先行者阿里巴巴,其大數(shù)據(jù)業(yè)務發(fā)展也依然是分散在各個子公司,并在2012年下半年才開始推出少量的商用產(chǎn)品。
“從人出發(fā),先去找人”
支付寶曾經(jīng)在八年前公司成立第二天就建立了數(shù)據(jù)部門,但真正有大數(shù)據(jù)業(yè)務,是在2010年的事情。正是那時候,支付寶從招商銀行信用卡中心招來一批專業(yè)的金融人才。秦予也是那時候加入支付寶的。
“金融行業(yè)的大數(shù)據(jù)業(yè)務已經(jīng)很成熟了。”秦予說。
支付寶的數(shù)據(jù)科學家每天做的工作就是,把客戶分成50個族群進行研究。比如,細分出都市輕熟男群體,這個群體的特征是每次買的不貴,均價七八十元,收入中等,但很喜歡在網(wǎng)上買東西。
還有一個族群被稱作“千金美少女”,其特征是收入并不高,但家里有錢,買得多,買得貴。
按照分群研究的思路,秦予的團隊把淘寶、天貓、支付寶和聚劃算的用戶做系統(tǒng)研究,通過觀察他們喜歡看什么媒體,上什么網(wǎng),來“生動地”知道用戶是個怎樣的人,進而推薦商品供用戶購買。
能識別用戶之后,在寫商品推薦文字的時候,不再是過去那樣千篇一律地使用“親”作為開頭。
“今天很多網(wǎng)站犯的錯誤就是,根據(jù)個人購買記錄,推薦一個類似的產(chǎn)品。其實用戶很可能買過了。用戶要的是你給他推薦一個跟他相似的人買的東西?!鼻赜鑼δ戏街苣┯浾哒f,以前的數(shù)據(jù)研究思路是從產(chǎn)品出發(fā),大數(shù)據(jù)時代是從人出發(fā),先去找人。
支付寶發(fā)展大數(shù)據(jù)業(yè)務,目前主要是為內(nèi)部服務。比如,過去支付寶很重視新客戶的獲取,但后來發(fā)現(xiàn)開賬戶的人多,關賬戶的人也不少,通過數(shù)據(jù)分析,支付寶建立了一個流失預警模型,預測每一個人未來三個月是否會離開支付寶,并對潛在的流失用戶做一些喚醒。
“支付寶是準金融行業(yè),數(shù)據(jù)比較敏感,涉及用戶隱私,還沒有到開放的階段。”秦予對南方周末記者說,支付寶非常忌諱提供商用化產(chǎn)品給商戶,很多合作方惦記著的是支付寶的數(shù)據(jù),但這是支付寶的高壓線。
“支付寶發(fā)展大數(shù)據(jù)的目的,跟淘寶和天貓有點偏差。我們更多地是為內(nèi)部服務,淘寶和天貓更多地強調(diào)商業(yè)化?!鼻赜鑼δ戏街苣┯浾哒f,阿里巴巴集團的大數(shù)據(jù)業(yè)務商用主要是淘寶平臺的幾個公司在推進。(本文來自:CDA數(shù)據(jù)分析師培訓官網(wǎng))
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
LSTM 模型輸入長度選擇技巧:提升序列建模效能的關鍵? 在循環(huán)神經(jīng)網(wǎng)絡(RNN)家族中,長短期記憶網(wǎng)絡(LSTM)憑借其解決長序列 ...
2025-07-11CDA 數(shù)據(jù)分析師報考條件詳解與準備指南? ? 在數(shù)據(jù)驅動決策的時代浪潮下,CDA 數(shù)據(jù)分析師認證愈發(fā)受到矚目,成為眾多有志投身數(shù) ...
2025-07-11數(shù)據(jù)透視表中兩列相乘合計的實用指南? 在數(shù)據(jù)分析的日常工作中,數(shù)據(jù)透視表憑借其強大的數(shù)據(jù)匯總和分析功能,成為了 Excel 用戶 ...
2025-07-11尊敬的考生: 您好! 我們誠摯通知您,CDA Level I和 Level II考試大綱將于 2025年7月25日 實施重大更新。 此次更新旨在確保認 ...
2025-07-10BI 大數(shù)據(jù)分析師:連接數(shù)據(jù)與業(yè)務的價值轉化者? ? 在大數(shù)據(jù)與商業(yè)智能(Business Intelligence,簡稱 BI)深度融合的時代,BI ...
2025-07-10SQL 在預測分析中的應用:從數(shù)據(jù)查詢到趨勢預判? ? 在數(shù)據(jù)驅動決策的時代,預測分析作為挖掘數(shù)據(jù)潛在價值的核心手段,正被廣泛 ...
2025-07-10數(shù)據(jù)查詢結束后:分析師的收尾工作與價值深化? ? 在數(shù)據(jù)分析的全流程中,“query end”(查詢結束)并非工作的終點,而是將數(shù) ...
2025-07-10CDA 數(shù)據(jù)分析師考試:從報考到取證的全攻略? 在數(shù)字經(jīng)濟蓬勃發(fā)展的今天,數(shù)據(jù)分析師已成為各行業(yè)爭搶的核心人才,而 CDA(Certi ...
2025-07-09【CDA干貨】單樣本趨勢性檢驗:捕捉數(shù)據(jù)背后的時間軌跡? 在數(shù)據(jù)分析的版圖中,單樣本趨勢性檢驗如同一位耐心的偵探,專注于從單 ...
2025-07-09year_month數(shù)據(jù)類型:時間維度的精準切片? ? 在數(shù)據(jù)的世界里,時間是最不可或缺的維度之一,而year_month數(shù)據(jù)類型就像一把精準 ...
2025-07-09CDA 備考干貨:Python 在數(shù)據(jù)分析中的核心應用與實戰(zhàn)技巧? ? 在 CDA 數(shù)據(jù)分析師認證考試中,Python 作為數(shù)據(jù)處理與分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 檢驗:數(shù)據(jù)趨勢與突變分析的有力工具? ? ? 在數(shù)據(jù)分析的廣袤領域中,準確捕捉數(shù)據(jù)的趨勢變化以及識別 ...
2025-07-08備戰(zhàn) CDA 數(shù)據(jù)分析師考試:需要多久?如何規(guī)劃? CDA(Certified Data Analyst)數(shù)據(jù)分析師認證作為國內(nèi)權威的數(shù)據(jù)分析能力認證 ...
2025-07-08LSTM 輸出不確定的成因、影響與應對策略? 長短期記憶網(wǎng)絡(LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變體,憑借獨特的門控機制,在 ...
2025-07-07統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應用? 市場調(diào)研是企業(yè)洞察市場動態(tài)、了解消費者需求的重要途徑,而統(tǒng)計學方法則是市場調(diào)研數(shù) ...
2025-07-07CDA數(shù)據(jù)分析師證書考試全攻略? 在數(shù)字化浪潮席卷全球的當下,數(shù)據(jù)已成為企業(yè)決策、行業(yè)發(fā)展的核心驅動力,數(shù)據(jù)分析師也因此成為 ...
2025-07-07剖析 CDA 數(shù)據(jù)分析師考試題型:解鎖高效備考與答題策略? CDA(Certified Data Analyst)數(shù)據(jù)分析師考試作為衡量數(shù)據(jù)專業(yè)能力的 ...
2025-07-04SQL Server 字符串截取轉日期:解鎖數(shù)據(jù)處理的關鍵技能? 在數(shù)據(jù)處理與分析工作中,數(shù)據(jù)格式的規(guī)范性是保證后續(xù)分析準確性的基礎 ...
2025-07-04CDA 數(shù)據(jù)分析師視角:從數(shù)據(jù)迷霧中探尋商業(yè)真相? 在數(shù)字化浪潮席卷全球的今天,數(shù)據(jù)已成為企業(yè)決策的核心驅動力,CDA(Certifie ...
2025-07-04CDA 數(shù)據(jù)分析師:開啟數(shù)據(jù)職業(yè)發(fā)展新征程? ? 在數(shù)據(jù)成為核心生產(chǎn)要素的今天,數(shù)據(jù)分析師的職業(yè)價值愈發(fā)凸顯。CDA(Certified D ...
2025-07-03