
阿里巴巴的大數(shù)據(jù)夢(mèng)
“為了迎接即將到來的大數(shù)據(jù)時(shí)代,各大互聯(lián)網(wǎng)公司都在爭(zhēng)分奪秒。阿里巴巴在公布大數(shù)據(jù)分享平臺(tái)之后的半年中,也全面啟動(dòng)了攻勢(shì)。但即使是這個(gè)行業(yè)的先行者,離大數(shù)據(jù)時(shí)代也還有不小的距離?!?/span>
▲阿里巴巴正在從數(shù)據(jù)中掘金
剛剛過去的2012年,秦予有個(gè)很大的遺憾,就是沒能招聘到自己想要的數(shù)據(jù)科學(xué)家,浪費(fèi)了公司給的招人名額。他是支付寶用戶價(jià)值創(chuàng)新中心的負(fù)責(zé)人。這個(gè)中心是支付寶大數(shù)據(jù)業(yè)務(wù)的核心部門。
阿里巴巴2012年的進(jìn)人指標(biāo)只有200個(gè),具體到支付寶公司,基本是只出不進(jìn),只有秦予所在的部門得到了難得的兩個(gè)進(jìn)人名額。但她只招到了一個(gè)合適的。
事實(shí)上,各大互聯(lián)網(wǎng)公司都在尋找這樣的人。騰訊網(wǎng)絡(luò)媒體事業(yè)群總裁劉勝義2012年年中就公開表示:隨著用戶各類數(shù)據(jù)的累積,大數(shù)據(jù)時(shí)代已經(jīng)來臨。騰訊各大產(chǎn)品線中都擁有自己的數(shù)據(jù)挖掘團(tuán)隊(duì)。而騰訊最新財(cái)報(bào)顯示,QQ用戶數(shù)接近8億人,活躍用戶數(shù)近2億人。
阿里集團(tuán)2012年7月10日就已宣布,設(shè)立首席數(shù)據(jù)官崗位(CDO),負(fù)責(zé)推進(jìn)“數(shù)據(jù)分享平臺(tái)”戰(zhàn)略。同日,阿里發(fā)布“聚石塔”平臺(tái),為天貓、淘寶平臺(tái)上的電商及電商服務(wù)商等提供數(shù)據(jù)云服務(wù)。
阿里巴巴集團(tuán)表示,如何挖掘、分析和運(yùn)用這些數(shù)據(jù),并和全社會(huì)分享,是這個(gè)戰(zhàn)略的核心所在。阿里巴巴是年交易額過萬億元的中國最大的電子商務(wù)平臺(tái),目前有兩萬人左右,其中近千人從事數(shù)據(jù)業(yè)務(wù)工作。
可以看到,從數(shù)據(jù)中掘金,已經(jīng)成為各大互聯(lián)網(wǎng)公司的共識(shí)。但在這個(gè)即將到來的大數(shù)據(jù)時(shí)代,這些公司具體將如何推進(jìn)呢?
“離大數(shù)據(jù)時(shí)代還有不小距離”
秦予要找的并不是一般的數(shù)據(jù)分析師。
“國內(nèi)不缺數(shù)據(jù)挖掘人才,但很難找到數(shù)據(jù)科學(xué)家?!鼻赜鑼?duì)南方周末記者說,秦予的團(tuán)隊(duì)有7個(gè)人,他們?cè)谥Ц秾殐?nèi)部被稱為“數(shù)據(jù)科學(xué)家”。
一般的數(shù)據(jù)分析師是根據(jù)支付寶的各種數(shù)據(jù)進(jìn)行分析,給公司決策層和各個(gè)業(yè)務(wù)部門提供咨詢支持。這也是目前很多公司都設(shè)有的商業(yè)智能部的主要職能。但數(shù)據(jù)科學(xué)家們做的事情是開發(fā)出具體可以銷售的商用化的大數(shù)據(jù)產(chǎn)品。
所謂大數(shù)據(jù),一般是1000T以上的數(shù)據(jù),如果按照一般機(jī)器配置,相當(dāng)于400臺(tái)到500臺(tái)電腦。對(duì)這些數(shù)據(jù)信息的商業(yè)化開發(fā)就是大數(shù)據(jù)產(chǎn)業(yè)鏈。
《大數(shù)據(jù)時(shí)代》一書中提到,未來,數(shù)據(jù)將會(huì)像土地、石油和資本一樣,成為經(jīng)濟(jì)運(yùn)行中的根本性資源。數(shù)據(jù)科學(xué)家被認(rèn)為是下一個(gè)十年最熱門的職業(yè)。
而大數(shù)據(jù)跟個(gè)人最為密切的關(guān)系是對(duì)隱私的可能侵入。比如,亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,微博似乎對(duì)我們和我們朋友的關(guān)系無所不知,QQ圈子能給你推薦你不愿意再見面的某個(gè)女生的照片和動(dòng)態(tài)信息。
秦予是從美國歸國的計(jì)算機(jī)模擬博士后,在摩根大通和匯豐銀行工作過多年,2010年加入支付寶公司,負(fù)責(zé)支付寶和淘寶集市的大數(shù)據(jù)業(yè)務(wù)。支付寶公司擁有中國僅次于銀行業(yè)的個(gè)人數(shù)據(jù)信息。
“阿里巴巴有海量的數(shù)據(jù),對(duì)于做大數(shù)據(jù)的人來說,阿里巴巴是中國最好的平臺(tái),很吸引人。因?yàn)槲业慕鹑诒尘八赃x擇支付寶。”秦予對(duì)南方周末記者說。
回國進(jìn)入大數(shù)據(jù)行業(yè)之后,秦予參加了很多大數(shù)據(jù)的論壇和研討會(huì),她最大的體會(huì)是,看到的新東西很少。
“別說大數(shù)據(jù),連小數(shù)據(jù)都很少?,F(xiàn)在很多公司說的大數(shù)據(jù),大都是數(shù)據(jù)的搜集和整理。這是底層的工作?!鼻赜枵f,“中國離大數(shù)據(jù)時(shí)代還有不小距離。”
即使是作為國內(nèi)大數(shù)據(jù)業(yè)務(wù)的先行者阿里巴巴,其大數(shù)據(jù)業(yè)務(wù)發(fā)展也依然是分散在各個(gè)子公司,并在2012年下半年才開始推出少量的商用產(chǎn)品。
“從人出發(fā),先去找人”
支付寶曾經(jīng)在八年前公司成立第二天就建立了數(shù)據(jù)部門,但真正有大數(shù)據(jù)業(yè)務(wù),是在2010年的事情。正是那時(shí)候,支付寶從招商銀行信用卡中心招來一批專業(yè)的金融人才。秦予也是那時(shí)候加入支付寶的。
“金融行業(yè)的大數(shù)據(jù)業(yè)務(wù)已經(jīng)很成熟了?!鼻赜枵f。
支付寶的數(shù)據(jù)科學(xué)家每天做的工作就是,把客戶分成50個(gè)族群進(jìn)行研究。比如,細(xì)分出都市輕熟男群體,這個(gè)群體的特征是每次買的不貴,均價(jià)七八十元,收入中等,但很喜歡在網(wǎng)上買東西。
還有一個(gè)族群被稱作“千金美少女”,其特征是收入并不高,但家里有錢,買得多,買得貴。
按照分群研究的思路,秦予的團(tuán)隊(duì)把淘寶、天貓、支付寶和聚劃算的用戶做系統(tǒng)研究,通過觀察他們喜歡看什么媒體,上什么網(wǎng),來“生動(dòng)地”知道用戶是個(gè)怎樣的人,進(jìn)而推薦商品供用戶購買。
能識(shí)別用戶之后,在寫商品推薦文字的時(shí)候,不再是過去那樣千篇一律地使用“親”作為開頭。
“今天很多網(wǎng)站犯的錯(cuò)誤就是,根據(jù)個(gè)人購買記錄,推薦一個(gè)類似的產(chǎn)品。其實(shí)用戶很可能買過了。用戶要的是你給他推薦一個(gè)跟他相似的人買的東西?!鼻赜鑼?duì)南方周末記者說,以前的數(shù)據(jù)研究思路是從產(chǎn)品出發(fā),大數(shù)據(jù)時(shí)代是從人出發(fā),先去找人。
支付寶發(fā)展大數(shù)據(jù)業(yè)務(wù),目前主要是為內(nèi)部服務(wù)。比如,過去支付寶很重視新客戶的獲取,但后來發(fā)現(xiàn)開賬戶的人多,關(guān)賬戶的人也不少,通過數(shù)據(jù)分析,支付寶建立了一個(gè)流失預(yù)警模型,預(yù)測(cè)每一個(gè)人未來三個(gè)月是否會(huì)離開支付寶,并對(duì)潛在的流失用戶做一些喚醒。
“支付寶是準(zhǔn)金融行業(yè),數(shù)據(jù)比較敏感,涉及用戶隱私,還沒有到開放的階段?!鼻赜鑼?duì)南方周末記者說,支付寶非常忌諱提供商用化產(chǎn)品給商戶,很多合作方惦記著的是支付寶的數(shù)據(jù),但這是支付寶的高壓線。
“支付寶發(fā)展大數(shù)據(jù)的目的,跟淘寶和天貓有點(diǎn)偏差。我們更多地是為內(nèi)部服務(wù),淘寶和天貓更多地強(qiáng)調(diào)商業(yè)化。”秦予對(duì)南方周末記者說,阿里巴巴集團(tuán)的大數(shù)據(jù)業(yè)務(wù)商用主要是淘寶平臺(tái)的幾個(gè)公司在推進(jìn)。(本文來自:CDA數(shù)據(jù)分析師培訓(xùn)官網(wǎng))
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場(chǎng)景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡(jiǎn)單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10