
在網(wǎng)絡(luò)世界,數(shù)據(jù)就是金錢。作為全球最大的拍賣網(wǎng)站,eBay對(duì)這一點(diǎn)深有體會(huì)。眼下,eBay對(duì)各種在數(shù)據(jù)的分析無所不至,就像在每個(gè)顧客前面安裝了攝像頭一般。
毫無疑問,eBay擁有的數(shù)據(jù)量是驚人的。其每天都要處理100PB的數(shù)據(jù),其中包括50TB的機(jī)器數(shù)據(jù)??梢?,eBay每天都面臨天文數(shù)字般的大數(shù)據(jù)挑戰(zhàn)。
早在2006年,eBay就成立了大數(shù)據(jù)分析平臺(tái)。為了準(zhǔn)確分析用戶的購(gòu)物行為,eBay定義了成百上千種類型的數(shù)據(jù),并以此對(duì)顧客的行為進(jìn)行跟蹤分析。然而,這同時(shí)也為eBay帶來了新的挑戰(zhàn)。要知道,公司的數(shù)據(jù)量多到難以想象,沒有人能分析消化這么多的數(shù)據(jù),也沒有人能基于所有數(shù)據(jù)建立起模型。
事實(shí)上,eBay真正應(yīng)用到的,只是其收集的數(shù)據(jù)中的一小部分。“剩余的數(shù)據(jù),eBay或是將其丟棄,或是將其存儲(chǔ)起來。因?yàn)椴欢奶?,科技?shí)現(xiàn)了突破,這些數(shù)據(jù)就會(huì)變得有用?!?/span>eBay大中華區(qū)CEO林奕彰指出。
那么目前,eBay是如何利用這些數(shù)據(jù),來促進(jìn)業(yè)務(wù)創(chuàng)新和利潤(rùn)增長(zhǎng)的呢?
為用戶“像”
eBay擁有近2億的用戶,網(wǎng)站的商品清單項(xiàng)目則有3萬多類。在平臺(tái)的日常交易中,eBay幾乎每秒都要處理數(shù)千美元。而這些交易數(shù)據(jù),其實(shí)只是eBay全站數(shù)據(jù)信息總量的“冰山一角”。
基于大數(shù)據(jù)分析,eBay每天要回答的問題有很多,比如,“昨天最熱門的搜索商品是什么?”而即便是這樣的簡(jiǎn)單問題,都需要涉及處理五十億的頁面瀏覽量。從這個(gè)角度看,任何一個(gè)基本的業(yè)務(wù)問題,對(duì)公司來都是一個(gè)相當(dāng)巨大的問題。
就eBay如何利用大數(shù)據(jù)來增加在交易,林奕彰舉了一個(gè)典型的例子。譬如,一位年輕的女性早上10點(diǎn)在星巴克瀏覽eBay網(wǎng)站,eBay應(yīng)該推送給她什么樣的商品呢?
“就這幾個(gè)信息點(diǎn),我們其實(shí)已經(jīng)做了不少研究。”林奕彰,“事實(shí)上,用戶早晨10點(diǎn)、中午12點(diǎn),或是晚上7點(diǎn),她瀏覽的商品是不同的;在餐廳或是在家里,同樣會(huì)對(duì)瀏覽和搜索生影響;此外,還有用戶的年齡、當(dāng)時(shí)的天氣等等,都會(huì)對(duì)購(gòu)物生影響。eBay要做的,就是學(xué)習(xí)不同情景下的不同購(gòu)物模式,并推送給用戶最想要的商品。”
據(jù)悉,eBay可以從用戶以往的瀏覽記錄里“猜”她想要什么樣的商品,也可以從設(shè)定的成百上千種情景模型中計(jì)算出用戶可能的需求;或是對(duì)照另一位有相似特點(diǎn)的女性用戶,看她當(dāng)時(shí)買過什么樣的商品,從而推斷出這位用戶潛在的需求。在綜合各種考量因素后,eBay的后臺(tái)需要在短短幾秒內(nèi)將商品頁面推送給用戶。這意味,eBay的系統(tǒng)需要有非??斓倪\(yùn)算速度。
這種運(yùn)算模型,有相當(dāng)一部分人為的因素。比如,機(jī)器可以搜集用戶的上萬個(gè)數(shù)據(jù),但eBay的工程師可以定義其中的100個(gè)數(shù)據(jù)為有效數(shù)據(jù),而模型則建立在這些有效數(shù)據(jù)之上。此外,當(dāng)計(jì)算機(jī)自動(dòng)“學(xué)習(xí)”分析各種數(shù)據(jù)形成的趨勢(shì)時(shí),eBay需要將機(jī)器學(xué)習(xí)的邏輯設(shè)定在與商品交易相關(guān)的行為上。
除了通過大數(shù)據(jù)為用戶“像”而向其推送有針對(duì)性的商品,eBay此前還嘗試?yán)么髷?shù)據(jù)進(jìn)行搜索引擎的優(yōu)化。
具體來,eBay可以把握用戶的行為模式,使搜索引擎更加“直覺化”。如果時(shí)間倒煺幾年,用戶在使用eBay的搜索引擎時(shí),會(huì)發(fā)現(xiàn)它只能理解字面的意思,并按照字面意思尋找。很多時(shí)候,搜索引擎并不能理解用戶的真實(shí)意圖。但現(xiàn)在,eBay正試改變或重寫用戶的搜索請(qǐng)求,增加同義詞或替換語句,從而給出更相關(guān)性的內(nèi)容,并由此增加在交易量。而這背后,統(tǒng)統(tǒng)離不開大數(shù)據(jù)的支持。
為商家提供“情報(bào)”
基于用戶購(gòu)物的數(shù)據(jù),eBay同樣會(huì)給商家提供各式各樣的“情報(bào)”。比如,eBay會(huì)告訴制造商用戶正在網(wǎng)上搜索什么商品,或是各種出口行業(yè)的數(shù)據(jù),制造商會(huì)立刻對(duì)此做出反應(yīng)。
很多時(shí)候,eBay會(huì)根據(jù)自身或其他電商網(wǎng)站的交易情況,向商家建議其應(yīng)該銷售的品類?!斑@也是eBay大中華區(qū)正在做的工作,”林奕彰稱,“比如,一個(gè)中國(guó)的商家希望將品賣到澳洲,我們通過數(shù)據(jù)分析可以告訴他,他一個(gè)月大約可以賣出多少品,定價(jià)應(yīng)該在什么范圍內(nèi),市面上還有多少商家在賣同樣的品,他的市場(chǎng)占有率大概是多少。”
在此基礎(chǔ)上,eBay還試圖算出商家的補(bǔ)貨頻率。事實(shí)上,海外倉(cāng)儲(chǔ)是商家非常頭痛的問題,一旦計(jì)算失誤,便可能造成庫存積壓或缺貨。而在eBay,一旦用戶下單后發(fā)現(xiàn)商家缺貨,將是非常嚴(yán)重的問題。這種情況下,eBay可以通過過往的數(shù)據(jù)分析,得出商家第一批貨的大概銷量,以及按照過去銷貨的速度什么時(shí)候應(yīng)該補(bǔ)貨,物流的時(shí)間又是多久。通過這些數(shù)據(jù)的計(jì)算,eBay可以測(cè)算出商家補(bǔ)貨的邏輯。
這些數(shù)據(jù)分析,對(duì)于商家開拓新的銷售品類非常管用。因?yàn)橥ǔG闆r下,商家需要四五個(gè)月,才能摸清楚一種貨物的淡旺季銷量,及其在各個(gè)地區(qū)的受歡迎程度。
當(dāng)然,eBay所做的只是為商家提供各種潛在的商機(jī),至于賣家是否愿意投入生,或能否找到合適的供應(yīng)商進(jìn)貨,仍需要他們自己去完成。很多時(shí)候,eBay推薦商家銷售200個(gè)新品類,而最終商家只能找到50種新品的供應(yīng)商。
除此之外,憑藉平臺(tái)上生的各種信息,eBay還可以扮演“品管(品質(zhì)管理)”的角色。舉例來,一個(gè)賣家要在eBay上賣1000個(gè)品,當(dāng)它賣到50 個(gè)品的時(shí)候,有5個(gè)品出了問題;賣到200個(gè)品的時(shí)候,有20個(gè)品出了問題;賣到400個(gè)品的時(shí)候,有40個(gè)品出現(xiàn)質(zhì)量問題,以此類推。而eBay要做的,就是在其早期出現(xiàn)問題的時(shí)候,就及時(shí)提醒賣家。
進(jìn)一步,當(dāng)賣家賣掉10個(gè)、20個(gè)品的時(shí)候,eBay就要根據(jù)煺貨率、買家評(píng)論等把可能的問題檢測(cè)出來。與此同時(shí),eBay會(huì)提醒賣家,讓其監(jiān)督供應(yīng)商改進(jìn)品質(zhì),或選擇將商品下架,或是修改物品的描述。
在理想狀態(tài)下,這種品管系統(tǒng)會(huì)形成一個(gè)大數(shù)據(jù)的循環(huán),并幫助賣家減少煺貨,銷售更多的商品。假如賣家在收到這樣的通知后依舊我行我素,eBay就會(huì)認(rèn)為這樣的賣家并不重視品管,到了一定階段,eBay會(huì)對(duì)其實(shí)施交易“配額”,限制其交易量。
“品管的難點(diǎn)在于,我需要通過數(shù)據(jù)模型在賣家交易量很少的時(shí)候就發(fā)現(xiàn)問題。這種早期預(yù)測(cè)涉及復(fù)雜的運(yùn)算?!绷洲日帽硎荆耙坏┙灰琢看罅?,賣家自己也會(huì)統(tǒng)計(jì)煺貨率,之前的損失也就無可挽回?!?/span>
試錯(cuò)與挑戰(zhàn)
和其他在交易平臺(tái)一樣,eBay對(duì)假貨亦十分敏感。眼下,公司試圖通過大數(shù)據(jù)技術(shù),讓系統(tǒng)“智能”地識(shí)別出假貨。
實(shí)際上,“網(wǎng)絡(luò)打假”工作并不容易。要知道,假貨常常以各種形態(tài)出現(xiàn)在網(wǎng)絡(luò)上,且屢禁不止。以Rolex為例,假貨商家可能在單詞中增加一個(gè)空格,也可能將其中兩個(gè)字母互換位置,甚至名稱雷根本不出現(xiàn)Rolex,只是圖片展示出Rolex手表的樣子。eBay上有如此多的品牌,自然有形形色色的假貨充斥其中。這種情況下,單是靠在商品名稱或描述里抓關(guān)鍵詞,根本抓不住假貨。
而eBay眼下做的,就是通過數(shù)據(jù)分析建立起一種模型或規(guī)則,假如商家的交易符合這種規(guī)則或特徵,便有可能是在賣假貨。
打個(gè)比方,當(dāng)一個(gè)賣家的商品賣的很便宜,賣得很快,但后面的抱怨和煺貨很多,系統(tǒng)就會(huì)把這個(gè)“可疑”的模式識(shí)別出來,然后再由工作人員去判斷,這個(gè)賣家是否在賣假貨。換言之,“即便數(shù)據(jù)的量再大,賣假貨的人都有相對(duì)固定的模式?!绷洲日梅Q。而通過這種方式,eBay有效地鑒別出不少假貨商家。
不過,林奕彰并不諱言,這種大數(shù)據(jù)分析方法亦有其弊端?!熬图儇泦栴}來,這種方式只能在事后將問題查出來,而無法事先預(yù)測(cè)?!彼硎?,“這不是那么容易解決的問題,因?yàn)闊o論用什么樣的模型去套,假貨交易總是能先騙你一陣子?!?/span>
除了分析的滯后性,eBay的大數(shù)據(jù)挑戰(zhàn)還體現(xiàn)在龐大的數(shù)據(jù)處理上。盡管企業(yè)數(shù)據(jù)倉(cāng)庫為查詢提供了巨大性能,但它仍無法滿足eBay存儲(chǔ)和靈活處理的需要。要知道,這些系統(tǒng)的造價(jià)相當(dāng)昂貴,當(dāng)eBay每天增加50TB的數(shù)據(jù)時(shí),其成本是相當(dāng)高昂的。
在此基礎(chǔ)上,eBay收集的相當(dāng)一部分?jǐn)?shù)據(jù),在目前看來是無用的數(shù)據(jù)。畢竟,數(shù)據(jù)采集得越多,變數(shù)越多,而由此帶來的“數(shù)據(jù)噪音”也越多,模型越失真。從這個(gè)角度看,eBay要做的是記錄那些有意義的數(shù)據(jù),并銷毀那些不需要的信息。問題在于,eBay要分析的85%的問題都是新的或未知的,“eBay并不知道哪些信息未來或許會(huì)有用,”林奕彰坦言,“那些現(xiàn)在看起來無效的數(shù)據(jù),明后年可能就會(huì)隨科技進(jìn)步被消化,我們現(xiàn)在只能先把這些數(shù)據(jù)儲(chǔ)存起來?!?/span>
但另一廂,假如將所有信息都儲(chǔ)存起來,那么eBay每個(gè)月都會(huì)新增數(shù)以億計(jì)的數(shù)據(jù)信息。在如此浩瀚的數(shù)據(jù)海洋中,分析工作根本無從下手。因此對(duì)eBay來,這是一個(gè)必須平衡的難題。
需要指出的是,eBay當(dāng)下的分析模型也還不夠完美。無論是“猜”用戶,還是分析商家在eBay上的生意,eBay猜錯(cuò)的情況非常非常多。對(duì)于這一點(diǎn),林奕彰舉了信用卡的例子。在他看來,“銀行其實(shí)是運(yùn)用大數(shù)據(jù)最厲害的,但無論風(fēng)控模型怎么完美,全球依然有2%左右的信用卡賠率?!睕r且,eBay用的并不是成熟機(jī)構(gòu)認(rèn)證過的模型,很多時(shí)候要靠自己去猜,那么誤差也就不足為奇。
來源:北美新浪 作者:黃鍇
數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼
若不方便掃碼,搜微信號(hào):CDAshujufenxi
訓(xùn)練與驗(yàn)證損失驟升:機(jī)器學(xué)習(xí)訓(xùn)練中的異常診斷與解決方案 在機(jī)器學(xué)習(xí)模型訓(xùn)練過程中,“損失曲線” 是反映模型學(xué)習(xí)狀態(tài)的核心指 ...
2025-09-19解析 DataHub 與 Kafka:數(shù)據(jù)生態(tài)中兩類核心工具的差異與協(xié)同 在數(shù)字化轉(zhuǎn)型加速的今天,企業(yè)對(duì)數(shù)據(jù)的需求已從 “存儲(chǔ)” 轉(zhuǎn)向 “ ...
2025-09-19CDA 數(shù)據(jù)分析師:讓統(tǒng)計(jì)基本概念成為業(yè)務(wù)決策的底層邏輯 統(tǒng)計(jì)基本概念是商業(yè)數(shù)據(jù)分析的 “基礎(chǔ)語言”—— 從描述數(shù)據(jù)分布的 “均 ...
2025-09-19CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-19SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實(shí)戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場(chǎng)景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對(duì)象的 text 與 content:區(qū)別、場(chǎng)景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請(qǐng)求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請(qǐng)求工具對(duì)比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請(qǐng)求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長(zhǎng)浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營(yíng)問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營(yíng)銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營(yíng)銷成為企業(yè)突圍的核心方 ...
2025-09-11