88微拍福利,色吧网站

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

大數(shù)據(jù)思維與電商技術(shù)創(chuàng)新_數(shù)據(jù)分析師

2014-12-11

大數(shù)據(jù)思維與電商技術(shù)創(chuàng)新

我現(xiàn)在已經(jīng)離開ebay了，ebay這個公司實(shí)際上在商業(yè)模式上比較保守的公司，對比一下你就能夠知道它跟阿里巴巴的區(qū)別了。但是這幾年ebay在技術(shù)上投入比較大，技術(shù)主要用在Buyer上了，比如說有很多技術(shù)怎么幫助買家猜測他的意圖，賣家上，我怎么去幫助賣家把這個東西賣上去，比如說價格預(yù)測，分類。劉明為賣家服務(wù)這方面是做得非常突出和優(yōu)秀的，我們經(jīng)常一起聚會，他是我們的頭。

ebay這個公司應(yīng)該說在商業(yè)模式上創(chuàng)新比較少，用我們時下比較流行的術(shù)語說就是“缺乏互聯(lián)網(wǎng)思維”，但是在技術(shù)上投入是比較多的，應(yīng)該說它這個大數(shù)據(jù)思維是有的。剛才劉明分享了很多“干貨”，所以大家可以看我的題目，《大數(shù)據(jù)思維與電商技術(shù)創(chuàng)新》，一看就是一個比較忽悠的抬頭，所以我講的是比較忽悠的東西。我的背景比較雜，最早學(xué)的是數(shù)學(xué)，后來學(xué)了計(jì)算機(jī)，有三個碩士學(xué)位，一個博士學(xué)位，比較書呆，看的書比較多，但是做的比較少，所以比較忽悠。

我是去年12月份回國的，為什么回國呢？有一個小故事。去年12月份的時候主持了一個國際數(shù)據(jù)挖掘的大會，是一個比較好的大會。當(dāng)時我們邀請了一些嘉賓，包括ebay公司管技術(shù)的副總，還有百度的深度學(xué)習(xí)部門的副總，百度的副總在那里演講說我們這里做深度學(xué)習(xí)，去年7月份立項(xiàng)，11月份就有幾個項(xiàng)目上線了，當(dāng)時我們副總一聽太奇怪了，在我們那里光是討論光是立項(xiàng)可能就要半年，人家4個月已經(jīng)出東西了，我說當(dāng)然，中國是很有活力的，你只是看到這個，如果你用一下我們中國出的一些新軟件，微信、來往，支付寶等等，你要用這些軟件就會發(fā)現(xiàn)美國的軟件弱爆了，那他說你為什么還在這里？我跟他相視一笑，那個大會開完的第二周，我們副總離職了，我也離職了，副總離職不是我干的（笑）。
子遨問我講什么，我就跟他說講“大數(shù)據(jù)思維和電商技術(shù)創(chuàng)新”，結(jié)果前兩天我上微信一看的，下面這段很流行了，說“化緣的改叫眾籌了，辦公室出租改叫孵化器了，放高利貸的改叫資本運(yùn)作了，忽悠的叫互聯(lián)網(wǎng)思維了，統(tǒng)計(jì)改叫大數(shù)據(jù)分析”。我一看到這個，我想我還講不講這個，太忽悠了。后來我用我的邏輯思考了一下，這里面兩個東西都很像，但它們并不是統(tǒng)計(jì)的東西，所以我覺得還是可以過來忽悠一下。
在講正題之前，大家該給我看看我這個表弟應(yīng)該干啥？張三他非常靦腆，少言寡語，他很樂于助人，但對他人或者這個現(xiàn)實(shí)世界沒有興趣，他恭謹(jǐn)有禮，做事井井有條，中規(guī)中矩，他喜歡整理物件，家里東西擺放很齊整。張三更可能從事下面兩個職業(yè)中的哪一個？是圖書管理員還是打工仔？你如果是直覺來思考的話，覺得他可能是圖書管理員，因?yàn)槲覀冎庇X是不懂統(tǒng)計(jì)的。如果你稍微考慮一下你會發(fā)現(xiàn)，中國打工仔有幾億，圖書管理員有幾個。如果你考慮統(tǒng)計(jì)的話，你就會發(fā)現(xiàn)這個他更可能成為打工仔。這個在心理學(xué)中有論述，人的思維有很多很多偏差，這個是其中一種偏差，叫相似形啟發(fā)偏差。直覺告訴我們這個人描述跟圖書管理員很相似，所以我們覺得他可能做圖書管理員，直覺是不懂統(tǒng)計(jì)的。像我剛才讀的那段話，直覺告訴我們好象是那么回事，是因?yàn)橹庇X是不會深入思考。

大家看這個，這是一個漩渦圖嗎？它不是，實(shí)際上很多同心圓在這里，所以這里告訴視覺也是有偏差的。
給你們講一個故事，是美國的故事，說人死了之后要進(jìn)天堂，天堂不是什么人都可以進(jìn)的，有人看守的，你要進(jìn)就要回答一個問題，是一個聽寫的單詞。這時候一個白人進(jìn)來了，守門人就說，你幫我拼寫一下上帝這個單詞，很簡單嘛。這時候來了一個黑人，說你幫我拼寫一個捷克斯洛伐克這個單詞，黑人傻眼了。所以這告訴我們，人做決策的時候，都是有立場的偏差的。你無論是多么理性的人，都或多或少的有偏差。
這個故事很有意思，說以色列有8位保釋官，每天工作都是審理保釋申請。保釋申請很多，他們每天除了三餐就在審理，每份保釋申請需要6分鐘，平均通過率是35%。這時候就有美國的科學(xué)家?guī)退麄內(nèi)プ鰯?shù)據(jù)分析，結(jié)果數(shù)據(jù)出來讓所有人都非常驚訝，為什么？他們發(fā)現(xiàn)當(dāng)保釋官吃完飯坐下剛開始批的時候，批準(zhǔn)率有65%，慢慢隨著時間過去，批準(zhǔn)率穩(wěn)步下降。到了他們即將下班或到了他們下一頓飯到來之前，批準(zhǔn)率幾乎為零。所以這告訴我們，人的思維是有多大的偏差，很受生理等各方面的影響。
這本書我強(qiáng)烈推薦一下，就是《思考，快與慢》，它講的所謂快思維就是直覺，慢思維就是理性思維。
講了這么多，我們想說一個很簡單的問題，人的思維有各種各樣的偏差，我們要做決策、要做創(chuàng)新、要做管理，如果只依賴于我們?nèi)说乃季S的話，是不行的。那怎么辦？就要數(shù)據(jù)化，在大數(shù)據(jù)時代，我們要有大數(shù)據(jù)的思維。這種思維對我們中國人來說，可能是更加重要。因?yàn)闅v史上很多人都說，我們中國人是“差不多”先生，什么事都差不多就好，不會去深入分析背后的原因，也不會去搞一些數(shù)據(jù)分析。像中國討論問題的時候都會說我的經(jīng)驗(yàn)告訴應(yīng)該怎么樣？美國一些受過比較好訓(xùn)練的人就會說你把數(shù)據(jù)給我。重視數(shù)據(jù)是必然的，現(xiàn)在也是也到了這樣一個時代，隨著各種傳感器、手機(jī)，移動互聯(lián)網(wǎng)的盛行，很多東西都數(shù)據(jù)化了，有句話說一切皆可數(shù)量化。數(shù)量化之后我們就要開始考慮怎么樣讓我們收集到的數(shù)據(jù)讓它說話？
比如說我們收集到的一些數(shù)據(jù)，我們來看看這個例子，說某寶網(wǎng)站上有兩個商家，他們都做成了一千宗生意，這是數(shù)據(jù)告訴我們的，A店鋪是客戶好評是20%，B店鋪客戶好評率是80%，某位“親”要買這兩個店鋪都提供的商品，應(yīng)該選哪個店鋪？直覺告訴我應(yīng)該選好評率高的，80%，干嘛選20%的？現(xiàn)在淘寶系統(tǒng)也是這樣，我們?nèi)タ茨骋粋€商品，看到了店鋪商品符合率有多少，好評率有多少？都給這種數(shù)據(jù)。實(shí)際上讓我們來看，舉個例子來看。假設(shè)A商家都只賣電冰箱和手電筒。A商家賣了900臺好評，其中有100個有好評，手電筒賣了100個，有100個好評，所以它中好評率是多少？20%。B商家賣了100個冰箱，沒有一個好評的，賣了900個手電筒，還有100個說不好。你看了這個數(shù)據(jù)只有，你還會找B買東西嗎？有了這個數(shù)據(jù)之后，怎么用這個數(shù)據(jù)，對我們要求還是比較多的，要懂這些統(tǒng)計(jì)，要深入分析我們到底需要什么？業(yè)務(wù)上的需求是什么？我們感興趣的核心數(shù)據(jù)是什么？而不是隨便拿一個數(shù)據(jù)過來忽悠。

美國競選民意調(diào)查，每次競選都有很多民意調(diào)查，還有一些州的首腦競選。1936年的時候，Roosevelt總統(tǒng)和AlfLandon競選，最后有一個民調(diào)公司做了一個民調(diào)。怎么做的？它向上千名擁有電話的人寄出了明信片，然后有230萬人回應(yīng)說我選Landon。結(jié)果民調(diào)公司一看，這么多人回復(fù)，抽樣樣本這么大，就說羅斯福當(dāng)選不了，結(jié)果就是羅斯福當(dāng)選了。為什么？因?yàn)楫?dāng)時擁有電話的人都是比較有錢的人，他多半是共和黨。所以這個采樣，就是有偏的采樣。
2012年Abama和Romney的競選，一開始大家覺得Abama不錯，后來第一輪總統(tǒng)辯論之后大家覺得Abama太爛了，所以又有很多人說Romney贏。因?yàn)楹芏嗝裾{(diào)公司發(fā)現(xiàn)第一次演講之后，Romney的支持率大大上升。但是實(shí)際上有一家民調(diào)公司說不是，他的依據(jù)就是，在變論前后都做了民意調(diào)查，其中有70%都是參加了這兩次民意調(diào)查，這70%的人立場幾乎沒變，還是Abama領(lǐng)先。為什么其他民調(diào)公司會以為Romney贏呢？因?yàn)榈谝淮蚊裾{(diào)之后，Romney表現(xiàn)得那么好，以前不想投票的那些人紛紛要來投票，所以參與率比較高，所以樣本已經(jīng)變化了。
還Bradley effect，這是洛杉磯的黑人市長，他競選加州州長的時候，民調(diào)一路領(lǐng)先，后來沒有當(dāng)選。為什么？因?yàn)楫?dāng)人家去問選民說你要投誰呀？選民說我要不投黑人，是不是會懷疑我有種族歧視，所以說投黑人，結(jié)果真正投的時候又不投。
所以先要獲取“正確”的決策數(shù)據(jù)，首先目標(biāo)要非常明確，你要知道你要什么。比如說選商鋪，我們給出來的數(shù)據(jù)是商鋪的總好評率，但這個總好評率并不等于它每一個商品的好評率會高，對吧？美國民調(diào)也是這樣的，它樣本的選取，背后隱含的假設(shè)是說我選的這些樣本是有代表性的我，我的選民邀請是完全隨機(jī)，選民接受民調(diào)的比率，兩黨的選民都是類似的，而且選民在說實(shí)話，這就是它隱含的假設(shè)。所以我們分析的時候首要要看你想要什么，我們的目標(biāo)是什么？還有我們收集的數(shù)據(jù)，數(shù)據(jù)本身是什么？我們本身有沒有隱含一些假設(shè)，這些假設(shè)是否是滿足的？

我們看一下這個例子，這實(shí)際上是ebay真實(shí)做過的一個測試，頁面有兩種布局，我們是每行顯示三個商品，圖片小一點(diǎn)還是每行少顯示一些，圖片大一點(diǎn)。這兩種設(shè)計(jì)公說公有理，婆說婆有理。最簡單的方法，說我先用你小的圖片，過兩天再用大圖片，對比一下購買率、點(diǎn)擊率有沒有上升？這是一種方法，但是是行不通的。比如說這兩天我把你大圖片放上去了，馬上過周末了，我們做電商的都知道，周末跟平時很不一樣的，你看到周末數(shù)據(jù)升高，是不是大圖片好呢？不知道。所以在統(tǒng)計(jì)里面做這種決策的話，最重要的是一個隨機(jī)對比測試。隨機(jī)對比測試很簡單，在統(tǒng)計(jì)里面，在大數(shù)據(jù)里面都是一樣的。所謂隨機(jī)對比測試，就是需要把新的算法做成一個新的系統(tǒng)，然后跟舊系統(tǒng)同時上線，數(shù)據(jù)上來的時候隨即把它分到兩個系統(tǒng)中去，最后比較出來的各種數(shù)據(jù)，看看有沒有某一個系統(tǒng)里面各項(xiàng)指標(biāo)是明顯比另外一個高的，這就是隨機(jī)對比測試。在電商里面做隨機(jī)對比測試，其實(shí)有很多需要考慮的東西。比如說我要關(guān)注的指標(biāo)是什么？是不是多少人瀏覽？這是一種。是不是點(diǎn)擊率呢？是不是點(diǎn)擊前耗損？就是說用戶在點(diǎn)擊之前看了多久頁面才做了點(diǎn)擊，這意味著是不是我們的頁面戰(zhàn)時是不是對的？還有展示的商品是不是對的？是不是符合預(yù)期的？還有成交率、成交額，實(shí)際上每個系統(tǒng)都不一樣，有優(yōu)缺點(diǎn)。比如說你實(shí)際上要看點(diǎn)擊率，實(shí)際上ebay我們做了一個算法，在每一個查詢上做的錯誤，導(dǎo)致這個用戶一搜出來，他實(shí)際上是要搜集一個普通的東西，結(jié)果出來一堆女生的泳裝，那點(diǎn)擊率可高了。所以你如果要看點(diǎn)擊率，就會覺得這是對的，但是實(shí)際上不是。

看成交率行不行呢？我們曾經(jīng)把我們搜集引擎修改了一下，造成的結(jié)果價格比較低的東西，它更傾向于排在最前面，這當(dāng)然不是我們的意愿，但是出來結(jié)果是這樣的，結(jié)果發(fā)現(xiàn)商品成交數(shù)很快很升。你們知道ebay的商業(yè)模式跟天貓很像，就是成交之后抽成。結(jié)果買了很多很便宜的東西，商品數(shù)量上去了，但是實(shí)際上ebay的賺到的錢下降了。你到底是考慮提高商品成交的數(shù)目還是讓你公司多賺錢，也是需要考慮的。
還有成交滿意率，你不管商品質(zhì)量怎么樣，只要看起來很漂亮的，不管是不是假貨都往上推，只管成交量，不管評價，可能滿意率就下降了。
還有測試對象怎么去隨機(jī)篩選，也是需要考慮的。還有測試結(jié)果的誤差分析和P值計(jì)算。你到底是變成幾天，出來的結(jié)果怎么證明說B系統(tǒng)比A系統(tǒng)好？統(tǒng)計(jì)上是顯著的，不是因?yàn)橐恍╇S機(jī)的誤差。還有你做測試的時候還要考慮周期性、季節(jié)性，電商里面季節(jié)性是非常明顯的，周末和非周末，購貨的旺季和非旺季，就像年底，買的東西肯定就不一樣。我就發(fā)現(xiàn)我們當(dāng)時做的一些測試，在平時我發(fā)現(xiàn)我們新算法是算好的，但是到了圣誕節(jié)這段時間，就發(fā)現(xiàn)新算法反而不好，所以電商里面季節(jié)性、周期性是要好好考慮的。

還有多模塊之間的干擾，舉個例子來說，我們做搜索引擎的時候，用戶做輸入關(guān)健詞，我們就會做查詢分析。比如說你搜移動電話，我們知道移動電話和手機(jī)是同義詞，所以我就把移動電話和手機(jī)的結(jié)果都顯示出來了。比如說你搜索蘋果，一開始沒有蘋果手機(jī)，你搜索“蘋果”，我只把水果反饋給你。后來又了蘋果手機(jī)，我就又把蘋果手機(jī)也加進(jìn)來了。但是因?yàn)楸澈蟮呐判蛳到y(tǒng)是基于很多指標(biāo)的，比如說你商品的點(diǎn)擊率、購買率怎么樣，會加上去。這就導(dǎo)致我雖然把蘋果手機(jī)和蘋果水果都都反饋回來了，但是這個排序的算法里面，它還會把以前就會出來的商品排得更高，以至于新返回回來的蘋果手機(jī)排在很后面。所以你說這個查詢擴(kuò)展效果是好還是不好？這就有一個模塊干擾效應(yīng)。比如說我做了一個搜索引擎，我覺得經(jīng)過手機(jī)比較好賣，我就把跟手機(jī)有關(guān)的搜索引擎，把蘋果的排序高一些?？墒钦梦覀兊膹V告位正好都是蘋果手機(jī)，用戶一搜索一看，廣告位上都是很漂亮的圖片，蘋果手機(jī)。他直接點(diǎn)了廣告位了，那這是不是說明你這個排序算法不好呢？如果過一段時間，廣告位又被三星手機(jī)了，這時候排序算法你多返回蘋果手機(jī)可能又有用了。
花很多時間講隨機(jī)對比測試，因?yàn)檫@真的是太重要了。在統(tǒng)計(jì)界，一般覺得隨機(jī)對比有幾個限制，一個是客觀限制。比如說你要測試說我要送宇航員去月球。是派三個宇航員呢還是四個呢？派三個是兩男一女還是兩女一男呢還是統(tǒng)一性別呢？你要做測試的時候是不可能的，總不可能多發(fā)射幾次試試吧。還有倫理的限制，要證明抽煙有害健康，這其實(shí)很不好測試。比如說我做隨機(jī)對比測試，選了100萬個青少年，50萬不允許抽煙，50萬讓他們天天抽煙，幾十年之后看看患肺癌情況有沒有不同？這是違反倫理道德的。這兩個可能對我們這邊沒有什么影響，但是第三個情感限制對我們是有啟示的。亞馬遜曾經(jīng)做過測試，它有了新的算法，說我怎么給我的商品定價，結(jié)果它就拿去做AB測試了。結(jié)果有用戶在自己的電腦上買了東西，結(jié)果到他朋友的電腦上去看，價格低了5塊錢，他就很惱火，說你們亞馬遜是不是經(jīng)常這么騙我的錢。當(dāng)時這個事情鬧得很大，最后他們CEO親自出來說，這是我們在定價策略上做的一個測試，并沒有試圖去訛?zāi)銈兊腻X，只是一個測試，以后我們再也不這么干了。美國大陸?？展舅沧鲞^測試，比如說飛機(jī)晚點(diǎn)，他要給旅客道歉。他要把需要道歉的旅客隨機(jī)分為三類，一類給旅客發(fā)道歉信，一類既給道歉信又發(fā)補(bǔ)償金，還有一類就根本不理他，隨他去吧。這樣他們實(shí)際上做成功了，最后發(fā)現(xiàn)賠償金加道歉書的一類人，接下來的時間在航空公司消費(fèi)大大增加，總的來說一年可以多賺一兩億。這個雖然是成功了，但是非常兇險，如果萬一幾個客戶都在一組，他們一比較，發(fā)現(xiàn)你跟他道歉，給他發(fā)錢，不給我道歉，是很有風(fēng)險的。所以我們需要慎重，一方面技術(shù)上需要慎重，另外一方面就是在決策、情感上面慎重。

總結(jié)一下大數(shù)據(jù)思維，大數(shù)據(jù)思維實(shí)際上都是虛的概念，我這里也是虛的。

首先我覺得要重視數(shù)據(jù)，讓數(shù)據(jù)說話。首先是要收集數(shù)據(jù)，現(xiàn)在大數(shù)據(jù)架構(gòu)能夠幫助你收集各種各樣的數(shù)據(jù)，而且能夠很快地把數(shù)據(jù)收集出來讓你使用。接下來就是要讓“正確”的數(shù)據(jù)說話，基于業(yè)務(wù)，明確優(yōu)化的目標(biāo)，代表性的樣本或者全體數(shù)據(jù)，隨即對比測試數(shù)據(jù)?，F(xiàn)在大家都說數(shù)據(jù)科學(xué)家，我覺得數(shù)據(jù)科學(xué)家有一個很重要的數(shù)據(jù)是很重要的，就是對業(yè)務(wù)的理解。馬化騰也說，我現(xiàn)在不擔(dān)心其他的公司，但是我擔(dān)心不知道90后在想什么，他不懂業(yè)務(wù)，就不知道業(yè)務(wù)應(yīng)該怎么定位。我的朋友也說的現(xiàn)在的90后和00后不可理解了，他說有一天在小區(qū)里面忽然有個小姑娘沖出來抱住我的腿說叔叔你娶了我吧，后面***媽走出來說，你今天就結(jié)婚也得去上學(xué)，00后的思維很難捕捉。我同學(xué)說他繼續(xù)往前走，去學(xué)校找他新認(rèn)識的女朋友。結(jié)果在校門口有一個小男孩說，給你一百塊錢，你一定要幫我出席一下我的家長會。沒辦法，就幫他去。結(jié)果一進(jìn)教室門馬上跪下說，老婆你一定要相信我，這不是我的孩子。原來小朋友的班主任就是他的女朋友。
所以要讓正確的數(shù)據(jù)說明，所以我們要基于業(yè)務(wù)明確優(yōu)化目標(biāo)。然后選擇樣板，樣板是要有代表性的或者是全體數(shù)據(jù)。還有，我們要合適的利用隨機(jī)對比測試。其實(shí)都是統(tǒng)計(jì)里的東西，大數(shù)據(jù)相比統(tǒng)計(jì)有更多的范疇，或者說有很多地方還是不一樣的。比如說統(tǒng)計(jì)里面特別關(guān)注的是數(shù)據(jù)的質(zhì)量如何？有多少誤差、多少噪音？大數(shù)據(jù)可能對這一塊有其他的辦法去解決它，所謂混雜性，在大數(shù)據(jù)里面就沒有那么重要。以前我們思考問題的時候，一般都會講因果性?？赡茉诖髷?shù)據(jù)時代，我們可能更多要關(guān)注的是相關(guān)性。
看個例子，在一般網(wǎng)上我們都會做拼寫糾正或者同義詞挖掘，怎么做？一上來我們就通過自然語的規(guī)則，通過語義來找同義詞，這樣想就完蛋了，因?yàn)榛ヂ?lián)網(wǎng)很多不是基于自然語義的詞。比如說Ipone，并不是什么詞，而是別人推出來的商品，而且要耗費(fèi)大量的人力，沒準(zhǔn)哪天就又變了。拼寫糾正，商品推薦，這都需要有相關(guān)性。當(dāng)然有其他因素，一個最主要的因素，我在同一個會話里面，看這個同一個詞出現(xiàn)的概率有多高？比如說Ipone，后面的“e”掉了，搜集這個，因?yàn)橛梦疫@個網(wǎng)站的人太多太多了，用這個的也很多，因?yàn)楹芏嗳朔竿瑯拥腻e誤，我把樣本拿出來看，很多人發(fā)現(xiàn)這個錯誤，所以又改過來了，所以你看他們的會話的時候，第一個查詢是少個“e而”的，第二個是把它補(bǔ)正確的。而且第一個查詢沒有點(diǎn)擊，第二個查詢之后就有點(diǎn)擊，或者馬上換了詞查詢。所以在大數(shù)據(jù)時代會給我們很多非常準(zhǔn)確還有有聯(lián)系的信息，都有相關(guān)性。有很多搜索詞都是很相關(guān)的，如果真的很關(guān)聯(lián)的話，你把數(shù)據(jù)拿出來看，大數(shù)據(jù)一看，真正相關(guān)的關(guān)健詞真的是很大范圍上在同一個會話里面出現(xiàn)，所以所有東西都可以通過會話的相關(guān)性來解決。
包括推薦引擎基本原理也一樣，如果兩個商品，真的有內(nèi)在聯(lián)系的，當(dāng)然你可以雇一幫專家，去給你建字典、建這個樹，沒問題，是可以做，但是沒有拓展性，而且耗費(fèi)人力。其實(shí)搜索引擎也是看業(yè)務(wù)的相關(guān)性，如果兩個商品真的很相關(guān)，有內(nèi)在聯(lián)系，大數(shù)據(jù)拿出來一看，相關(guān)的商品經(jīng)常被同一個用戶所購買。你發(fā)現(xiàn)這個規(guī)律，如果這個用戶只買了一個商品，你就可以推薦另外一個商品，這是推薦的基本原理。
有很多很多大數(shù)據(jù)挖掘的案例，包括搜索商品的搜索算法，我們當(dāng)然可以做很簡單的搜索，比如說按價格排序，按上架時間排序，按很多方法，按商家的滿意度排序，都可以排。這都是單一的排序，不能滿足我們的需求，而且很容易被被商家所利用。比如說ebay，按上架時間或者按結(jié)束時間排序，那很多商家明明只有一個商品在賣，但是給你24小時重復(fù)上載到幾十次，人家一搜索的話，他商品就出現(xiàn)了。你可以要有一個好的算法，你要考慮去猜測客戶的意圖，你可以建立很多很多規(guī)則，比如說“城市多金男”喜歡什么樣的東西，會有什么追求，可以建立這樣的規(guī)則。但是我不說大家也知道這里面有很多問題。

現(xiàn)在搜索引擎怎么做？我已經(jīng)做過核心算法，我就把跟搜索引擎有關(guān)的數(shù)據(jù)一個一個弄出來。比如說對我們電商的排序系統(tǒng)，涉及到幾個大類的信息，有幾個用戶本身的信息，他的背景是什么？曾經(jīng)購買過什么樣的商品？購買商品的類型是什么？商品本身的信息，商量的質(zhì)量如何、價格如何？圖片好不好看？背后的商家如何？歷史的點(diǎn)擊如何？諸如此類的，你把這個數(shù)據(jù)拿出來，就會形成很多的舉證。我現(xiàn)在再把歷史的成交數(shù)據(jù)拿出來，看看哪些是真正成交了的，哪些是沒有成交的。這樣我們就形成了一個精確的舉證，然后每一個背后還有一個分析，說這個是真實(shí)成交的，零就是非成交的，就有這種樣本，然后就把這個數(shù)據(jù)推給機(jī)器學(xué)習(xí)的算法，給你一個預(yù)測的值。預(yù)測出來，你會發(fā)現(xiàn)，可能之前想象一點(diǎn)都沒有用，但是可能它很有用。比如說ebay之前做的測算，商品圖片的大小，對商品銷售就很有影響，你之前根本想不到。它出來的結(jié)果可能沒有因果性，你也沒法去解釋，沒關(guān)系，在大數(shù)據(jù)里，你只要找出相關(guān)性就可以了。
我們都知道，如果我們知道一個人已經(jīng)懷孕了，她要生寶寶了，這種客戶實(shí)際上是很好的客戶，因?yàn)樗鷮殞氈缶鸵I很多很多東西，這是美國各大商家試圖在爭取的用戶。他做了一個預(yù)產(chǎn)期的預(yù)測，預(yù)測之后，他就給客戶發(fā)廣告，說商品打折。結(jié)果他給一個17歲的女孩發(fā)了，他老爸發(fā)現(xiàn)了就很生氣，就沖到他們本地的店，說怎么回事，你們是鼓勵未成年人懷孕嗎？結(jié)果幾周后他又跑來說，真對不起，我女兒真的懷孕了。如果要預(yù)測預(yù)產(chǎn)期？怎么辦？只能找這種相關(guān)性。他就發(fā)現(xiàn)我們歷史當(dāng)中已經(jīng)知道她懷孕的，她買了很多尿布，在她買了很多尿布之前，比如說很多人在懷孕的前七八個月，買那種沒有香味的護(hù)膚乳液，或者說有很多東西就不買了。通過相關(guān)商品預(yù)測某個女人是不是懷孕了，而且是多久以前懷的孕，多久之后生寶寶，他就會定向投放。當(dāng)然他也學(xué)乖了，之前是廣告赤裸裸地郵寄給你，后來就把很多廣告放在一起發(fā)，把小孩的廣告放在中間，顯得好象漫不經(jīng)心。
像剛才舉的例子里面可以分為兩類，一類是對已有的產(chǎn)品的改造，比如說搜索引擎找就有了，推薦算法找就有了。在大數(shù)據(jù)時代，你可以通過大數(shù)據(jù)提高已有算法的。還有一類，對于很有大數(shù)據(jù)思維的人，他可能就想利用大數(shù)據(jù)一些新的手段、新的思維。比如說Farecast和Decide，都是同一個教授做的，是華盛頓大學(xué)的教授。他在2007、08年開始做Farecast，預(yù)測機(jī)票價格，他就告訴你你要去夏威夷玩，是十個月之前買票還是之后買票便宜，就做這個東西，這個東西2009年被微軟重金收購。然后教授馬上又想，我預(yù)測了這個，我能不能預(yù)測這個商品的價格，他一開始主要專注于電子產(chǎn)品的價格預(yù)測。預(yù)測價格，又被ebay收購了。所以有這個思維的人，有了這樣大數(shù)據(jù)，我怎么去產(chǎn)生一個新的產(chǎn)品，產(chǎn)生一個新的應(yīng)用，這個應(yīng)用滿足用戶的某種需求。我覺得這對于大數(shù)據(jù)時代是最需要、最難的，怎么去海闊天空地想這些東西。
大數(shù)據(jù)的應(yīng)用層次，這里簡單說一下，最基礎(chǔ)的層次，就是說我要把大數(shù)據(jù)采集下來，要整理要管理。比如說以前我是不可能把用戶的采購歷史整理下來的，是不可能把用戶的資料翻出來的，大數(shù)據(jù)時代就可以了。ebay就可以了，你用ebay的話以往就只能查詢最近一段時間的購買記錄，現(xiàn)在可以了，你可以把歷史購買數(shù)據(jù)和最近數(shù)據(jù)調(diào)出來，就可以做一些個性化的數(shù)據(jù)分析。這是所有數(shù)據(jù)操作的基礎(chǔ)，之上就有數(shù)據(jù)報(bào)表和商業(yè)分析，以前可能沒法說很快產(chǎn)生一個數(shù)據(jù)報(bào)表，而且是用很多很多數(shù)據(jù)來呈現(xiàn)，可能就很難做到?，F(xiàn)在像ebay要做報(bào)表的話，上面領(lǐng)導(dǎo)分析做一個報(bào)表，就問他你要用一個月一年不還是幾年呢，說是一年的，那幾小時候給你，如果是一個月的話，我?guī)追昼娋涂梢越o你，用全體數(shù)據(jù)，出來結(jié)果很快，也是大數(shù)據(jù)幫助我們做到的。第三個層次是所謂的數(shù)據(jù)科學(xué)，數(shù)據(jù)科學(xué)重視的更多是怎么去建模，怎么去預(yù)測。我想這就是三個層次，一個是基本的管理，一個是簡單的分析，最后一個是數(shù)據(jù)科學(xué)家。
我們來看一個過程，想象一下，現(xiàn)在有一個購買者來到某寶網(wǎng)站，要購買東西，他在用戶瀏覽器里敲入網(wǎng)址，回車，后面會發(fā)生什么問題呢？哪些事情跟大數(shù)據(jù)有關(guān)呢？這也是我們之前負(fù)責(zé)搜索科學(xué)家招聘的時候喜歡問的一個問題。我們考慮一下，首先用戶打入網(wǎng)址之后，網(wǎng)址就遞交到DNS，DNS會把IP地址反饋給你。大數(shù)據(jù)時代DNS可能是在不同地方的，會把不同的IP地址反饋出客戶不同的地理位置到數(shù)據(jù)中心。到了數(shù)據(jù)中心之后，會把數(shù)據(jù)做一個分流，這樣做到第一步的分流，把流量分到不同的服務(wù)中心。到了服務(wù)中心之后，現(xiàn)在用大數(shù)據(jù)的底層架構(gòu)，把數(shù)據(jù)的基本信息和歷史信息都給掏出來，掏出來之后給它產(chǎn)生個性化的首頁。個性化之后，用戶搜索框輸入東西，比如說那樣輸入了幾個數(shù)據(jù)或者漢字，我們給他一個輸入幫助系統(tǒng)，不需要輸入全部，效率就提高了。還有拼寫糾錯系統(tǒng)也一樣，還有查詢理解，猜測用戶意圖進(jìn)行擴(kuò)展。比如說前面說了，人家輸入了移動電話，手機(jī)也是移動電話，返回里面不光有移動電話商品，還有手機(jī)的商品，做了查詢擴(kuò)展的理解。系統(tǒng)根據(jù)這些擴(kuò)展的查詢，把商品拿回來了，拿回來之后做排序，你要進(jìn)一步猜測用戶最想要什么東西，他是想要手機(jī)，因?yàn)樗斎肓耸謾C(jī)。我要猜測這個用戶喜歡什么樣的手機(jī)，你就要根據(jù)個性化和商品屬性排序，就用我們前面說過的相關(guān)性利用機(jī)器學(xué)習(xí)的模型做排序，這里面還有個性化或者差評交易預(yù)防，它就可以預(yù)測說如果這個用戶買了這個商品，最后給差評的科學(xué)家有多少？這都有模型，最后放到總的搜索排序的模型下面來用。
頁面一打開，你會發(fā)現(xiàn)搜索框里有相關(guān)搜索，還有商品推薦，右面頁面最流行什么東西，給你顯示出來，還有廣告的顯示，用戶輸入什么，我就顯示什么廣告，這都是個性化。還有相關(guān)導(dǎo)購的信息，最后我們有很多導(dǎo)購的文本，我們應(yīng)該在什么時候應(yīng)該給用戶？比如說我輸入電冰箱，導(dǎo)購網(wǎng)站，比如說一淘有很多電冰箱相關(guān)的內(nèi)容，你就把這種文本性的東西也可以顯示出來。
這些用黃色字體都是大數(shù)據(jù)挖掘代表的，還有用戶點(diǎn)擊商品之后，還有商品情況的獲取，很快，還有商品推薦。這就是一個簡單的流程。
最后簡單說一下大數(shù)據(jù)時代的電商趨勢。現(xiàn)在電商趨勢我認(rèn)為有很多維，比如說移動化、還有導(dǎo)購化，比如現(xiàn)在一淘也做導(dǎo)購，因?yàn)楝F(xiàn)在網(wǎng)上的商品太多了，沒發(fā)選，所以你要教育用戶，這就是導(dǎo)購化。還有國際化，像ebay我離開之前，做一個項(xiàng)目是要支持國際購買，比如說俄羅斯人購買東西，我不光把俄羅斯的東西返回給你，還要把這些英文翻譯成俄羅斯文返回給你。還有垂直化，現(xiàn)在幾大巨頭壟斷了，我的小的電商怎么生存？或者大電商里面某一個部門怎么提高業(yè)績？這里就有一個垂直化，我們要根據(jù)這個領(lǐng)域好好把這個事情做好。在國外有很多做垂直領(lǐng)域的電商，現(xiàn)在其實(shí)都做得不錯。我覺得最重要的趨勢都是O2O，因?yàn)楝F(xiàn)在互聯(lián)網(wǎng)這么發(fā)達(dá)，還有各種各樣的傳感器、智能家居，還有智慧城市等等各種各樣的東西，會導(dǎo)致購物的意向會在隨時隨地出現(xiàn)，并且隨時都能夠滿足，這里面就涉及到O2O。O2O里面就涉及到兩方面，一方面是商品的購買，一方面是服務(wù)的購買。服務(wù)購買就跟本地生活很向卷，這也是O2O的一部分，最早是做團(tuán)購，現(xiàn)在更多是做一些服務(wù)。O2O里面還有最重要的一部分內(nèi)容，我猜想是社區(qū)電商。因?yàn)樯鐓^(qū)是中國最有特色的東西，美國沒有這種社區(qū)。一進(jìn)一個大門，幾千戶幾萬人住在一個社區(qū)里面。社區(qū)電商，以及社區(qū)電商之外怎么樣去疊加其他業(yè)態(tài)。比如我做了一個社區(qū)服務(wù)或者社區(qū)的銷售點(diǎn)，你怎么考慮怎么在線線下的融合。比如說我開了一家店在小區(qū)門口，除了賣東西還可以幫你代交水電費(fèi)和其他業(yè)務(wù)，我覺得社區(qū)電商肯定是很重要的趨勢。我們也在做一個項(xiàng)目，因?yàn)槟阍谧鯫2O的時候，就必然涉及到線上部分和線下的部分。線上部分，我可以隨時知道我線上店的運(yùn)營情況，你現(xiàn)在就做不到，你離線在線O2O融合，你怎么融合？你怎么在商業(yè)模式上融合，怎么在數(shù)據(jù)上融合？我做的一個項(xiàng)目可以幫你把離線店做成在線店一樣，你今天來了多少用戶，老年人有多少？懷孕的用戶有多少？我們看了什么？看完這個是不是也喜歡看那個？轉(zhuǎn)化率多少？進(jìn)店率多少？等等等等。在線店應(yīng)該有的東西，離線店也應(yīng)該有，在這樣基礎(chǔ)之上，我們就可以真正做在線和離線的融合，在業(yè)務(wù)上，在數(shù)據(jù)上都能夠融合。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；