99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)思維與電商技術(shù)創(chuàng)新_數(shù)據(jù)分析師
大數(shù)據(jù)思維與電商技術(shù)創(chuàng)新_數(shù)據(jù)分析師
2014-12-11
收藏

大數(shù)據(jù)思維與電商技術(shù)創(chuàng)新

我現(xiàn)在已經(jīng)離開ebay了,ebay這個公司實(shí)際上在商業(yè)模式上比較保守的公司,對比一下你就能夠知道它跟阿里巴巴的區(qū)別了。但是這幾年ebay在技術(shù)上投入比較大,技術(shù)主要用在Buyer上了,比如說有很多技術(shù)怎么幫助買家猜測他的意圖,賣家上,我怎么去幫助賣家把這個東西賣上去,比如說價格預(yù)測,分類。劉明為賣家服務(wù)這方面是做得非常突出和優(yōu)秀的,我們經(jīng)常一起聚會,他是我們的頭。

    ebay這個公司應(yīng)該說在商業(yè)模式上創(chuàng)新比較少,用我們時下比較流行的術(shù)語說就是“缺乏互聯(lián)網(wǎng)思維”,但是在技術(shù)上投入是比較多的,應(yīng)該說它這個大數(shù)據(jù)思維是有的。剛才劉明分享了很多“干貨”,所以大家可以看我的題目,《大數(shù)據(jù)思維與電商技術(shù)創(chuàng)新》,一看就是一個比較忽悠的抬頭,所以我講的是比較忽悠的東西。我的背景比較雜,最早學(xué)的是數(shù)學(xué),后來學(xué)了計(jì)算機(jī),有三個碩士學(xué)位,一個博士學(xué)位,比較書呆,看的書比較多,但是做的比較少,所以比較忽悠。

    我是去年12月份回國的,為什么回國呢?有一個小故事。去年12月份的時候主持了一個國際數(shù)據(jù)挖掘的大會,是一個比較好的大會。當(dāng)時我們邀請了一些嘉賓,包括ebay公司管技術(shù)的副總,還有百度的深度學(xué)習(xí)部門的副總,百度的副總在那里演講說我們這里做深度學(xué)習(xí),去年7月份立項(xiàng),11月份就有幾個項(xiàng)目上線了,當(dāng)時我們副總一聽太奇怪了,在我們那里光是討論光是立項(xiàng)可能就要半年,人家4個月已經(jīng)出東西了,我說當(dāng)然,中國是很有活力的,你只是看到這個,如果你用一下我們中國出的一些新軟件,微信、來往,支付寶等等,你要用這些軟件就會發(fā)現(xiàn)美國的軟件弱爆了,那他說你為什么還在這里?我跟他相視一笑,那個大會開完的第二周,我們副總離職了,我也離職了,副總離職不是我干的(笑)。
    子遨問我講什么,我就跟他說講“大數(shù)據(jù)思維和電商技術(shù)創(chuàng)新”,結(jié)果前兩天我上微信一看的,下面這段很流行了,說“化緣的改叫眾籌了,辦公室出租改叫孵化器了,放高利貸的改叫資本運(yùn)作了,忽悠的叫互聯(lián)網(wǎng)思維了,統(tǒng)計(jì)改叫大數(shù)據(jù)分析”。我一看到這個,我想我還講不講這個,太忽悠了。后來我用我的邏輯思考了一下,這里面兩個東西都很像,但它們并不是統(tǒng)計(jì)的東西,所以我覺得還是可以過來忽悠一下。
    在講正題之前,大家該給我看看我這個表弟應(yīng)該干啥?張三他非常靦腆,少言寡語,他很樂于助人,但對他人或者這個現(xiàn)實(shí)世界沒有興趣,他恭謹(jǐn)有禮,做事井井有條,中規(guī)中矩,他喜歡整理物件,家里東西擺放很齊整。張三更可能從事下面兩個職業(yè)中的哪一個?是圖書管理員還是打工仔?你如果是直覺來思考的話,覺得他可能是圖書管理員,因?yàn)槲覀冎庇X是不懂統(tǒng)計(jì)的。如果你稍微考慮一下你會發(fā)現(xiàn),中國打工仔有幾億,圖書管理員有幾個。如果你考慮統(tǒng)計(jì)的話,你就會發(fā)現(xiàn)這個他更可能成為打工仔。這個在心理學(xué)中有論述,人的思維有很多很多偏差,這個是其中一種偏差,叫相似形啟發(fā)偏差。直覺告訴我們這個人描述跟圖書管理員很相似,所以我們覺得他可能做圖書管理員,直覺是不懂統(tǒng)計(jì)的。像我剛才讀的那段話,直覺告訴我們好象是那么回事,是因?yàn)橹庇X是不會深入思考。

    大家看這個,這是一個漩渦圖嗎?它不是,實(shí)際上很多同心圓在這里,所以這里告訴視覺也是有偏差的。
    給你們講一個故事,是美國的故事,說人死了之后要進(jìn)天堂,天堂不是什么人都可以進(jìn)的,有人看守的,你要進(jìn)就要回答一個問題,是一個聽寫的單詞。這時候一個白人進(jìn)來了,守門人就說,你幫我拼寫一下上帝這個單詞,很簡單嘛。這時候來了一個黑人,說你幫我拼寫一個捷克斯洛伐克這個單詞,黑人傻眼了。所以這告訴我們,人做決策的時候,都是有立場的偏差的。你無論是多么理性的人,都或多或少的有偏差
    這個故事很有意思,說以色列有8位保釋官,每天工作都是審理保釋申請。保釋申請很多,他們每天除了三餐就在審理,每份保釋申請需要6分鐘,平均通過率是35%。這時候就有美國的科學(xué)家?guī)退麄內(nèi)プ鰯?shù)據(jù)分析,結(jié)果數(shù)據(jù)出來讓所有人都非常驚訝,為什么?他們發(fā)現(xiàn)當(dāng)保釋官吃完飯坐下剛開始批的時候,批準(zhǔn)率有65%,慢慢隨著時間過去,批準(zhǔn)率穩(wěn)步下降。到了他們即將下班或到了他們下一頓飯到來之前,批準(zhǔn)率幾乎為零。所以這告訴我們,人的思維是有多大的偏差,很受生理等各方面的影響。
    這本書我強(qiáng)烈推薦一下,就是《思考,快與慢》,它講的所謂快思維就是直覺,慢思維就是理性思維。
    講了這么多,我們想說一個很簡單的問題,人的思維有各種各樣的偏差,我們要做決策、要做創(chuàng)新、要做管理,如果只依賴于我們?nèi)说乃季S的話,是不行的。那怎么辦?就要數(shù)據(jù)化,在大數(shù)據(jù)時代,我們要有大數(shù)據(jù)的思維。這種思維對我們中國人來說,可能是更加重要。因?yàn)闅v史上很多人都說,我們中國人是“差不多”先生,什么事都差不多就好,不會去深入分析背后的原因,也不會去搞一些數(shù)據(jù)分析。像中國討論問題的時候都會說我的經(jīng)驗(yàn)告訴應(yīng)該怎么樣?美國一些受過比較好訓(xùn)練的人就會說你把數(shù)據(jù)給我。重視數(shù)據(jù)是必然的,現(xiàn)在也是也到了這樣一個時代,隨著各種傳感器、手機(jī),移動互聯(lián)網(wǎng)的盛行,很多東西都數(shù)據(jù)化了,有句話說一切皆可數(shù)量化。數(shù)量化之后我們就要開始考慮怎么樣讓我們收集到的數(shù)據(jù)讓它說話?
    比如說我們收集到的一些數(shù)據(jù),我們來看看這個例子,說某寶網(wǎng)站上有兩個商家,他們都做成了一千宗生意,這是數(shù)據(jù)告訴我們的,A店鋪是客戶好評是20%,B店鋪客戶好評率是80%,某位“親”要買這兩個店鋪都提供的商品,應(yīng)該選哪個店鋪?直覺告訴我應(yīng)該選好評率高的,80%,干嘛選20%的?現(xiàn)在淘寶系統(tǒng)也是這樣,我們?nèi)タ茨骋粋€商品,看到了店鋪商品符合率有多少,好評率有多少?都給這種數(shù)據(jù)。實(shí)際上讓我們來看,舉個例子來看。假設(shè)A商家都只賣電冰箱和手電筒。A商家賣了900臺好評,其中有100個有好評,手電筒賣了100個,有100個好評,所以它中好評率是多少?20%。B商家賣了100個冰箱,沒有一個好評的,賣了900個手電筒,還有100個說不好。你看了這個數(shù)據(jù)只有,你還會找B買東西嗎?有了這個數(shù)據(jù)之后,怎么用這個數(shù)據(jù),對我們要求還是比較多的,要懂這些統(tǒng)計(jì),要深入分析我們到底需要什么?業(yè)務(wù)上的需求是什么?我們感興趣的核心數(shù)據(jù)是什么?而不是隨便拿一個數(shù)據(jù)過來忽悠。

    美國競選民意調(diào)查,每次競選都有很多民意調(diào)查,還有一些州的首腦競選。1936年的時候,Roosevelt總統(tǒng)和AlfLandon競選,最后有一個民調(diào)公司做了一個民調(diào)。怎么做的?它向上千名擁有電話的人寄出了明信片,然后有230萬人回應(yīng)說我選Landon。結(jié)果民調(diào)公司一看,這么多人回復(fù),抽樣樣本這么大,就說羅斯福當(dāng)選不了,結(jié)果就是羅斯福當(dāng)選了。為什么?因?yàn)楫?dāng)時擁有電話的人都是比較有錢的人,他多半是共和黨。所以這個采樣,就是有偏的采樣。
    2012年Abama和Romney的競選,一開始大家覺得Abama不錯,后來第一輪總統(tǒng)辯論之后大家覺得Abama太爛了,所以又有很多人說Romney贏。因?yàn)楹芏嗝裾{(diào)公司發(fā)現(xiàn)第一次演講之后,Romney的支持率大大上升。但是實(shí)際上有一家民調(diào)公司說不是,他的依據(jù)就是,在變論前后都做了民意調(diào)查,其中有70%都是參加了這兩次民意調(diào)查,這70%的人立場幾乎沒變,還是Abama領(lǐng)先。為什么其他民調(diào)公司會以為Romney贏呢?因?yàn)榈谝淮蚊裾{(diào)之后,Romney表現(xiàn)得那么好,以前不想投票的那些人紛紛要來投票,所以參與率比較高,所以樣本已經(jīng)變化了。
    還Bradley effect,這是洛杉磯的黑人市長,他競選加州州長的時候,民調(diào)一路領(lǐng)先,后來沒有當(dāng)選。為什么?因?yàn)楫?dāng)人家去問選民說你要投誰呀?選民說我要不投黑人,是不是會懷疑我有種族歧視,所以說投黑人,結(jié)果真正投的時候又不投。
    所以先要獲取“正確”的決策數(shù)據(jù),首先目標(biāo)要非常明確,你要知道你要什么。比如說選商鋪,我們給出來的數(shù)據(jù)是商鋪的總好評率,但這個總好評率并不等于它每一個商品的好評率會高,對吧?美國民調(diào)也是這樣的,它樣本的選取,背后隱含的假設(shè)是說我選的這些樣本是有代表性的我,我的選民邀請是完全隨機(jī),選民接受民調(diào)的比率,兩黨的選民都是類似的,而且選民在說實(shí)話,這就是它隱含的假設(shè)。所以我們分析的時候首要要看你想要什么,我們的目標(biāo)是什么?還有我們收集的數(shù)據(jù),數(shù)據(jù)本身是什么?我們本身有沒有隱含一些假設(shè),這些假設(shè)是否是滿足的?

    我們看一下這個例子,這實(shí)際上是ebay真實(shí)做過的一個測試,頁面有兩種布局,我們是每行顯示三個商品,圖片小一點(diǎn)還是每行少顯示一些,圖片大一點(diǎn)。這兩種設(shè)計(jì)公說公有理,婆說婆有理。最簡單的方法,說我先用你小的圖片,過兩天再用大圖片,對比一下購買率、點(diǎn)擊率有沒有上升?這是一種方法,但是是行不通的。比如說這兩天我把你大圖片放上去了,馬上過周末了,我們做電商的都知道,周末跟平時很不一樣的,你看到周末數(shù)據(jù)升高,是不是大圖片好呢?不知道。所以在統(tǒng)計(jì)里面做這種決策的話,最重要的是一個隨機(jī)對比測試。隨機(jī)對比測試很簡單,在統(tǒng)計(jì)里面,在大數(shù)據(jù)里面都是一樣的。所謂隨機(jī)對比測試,就是需要把新的算法做成一個新的系統(tǒng),然后跟舊系統(tǒng)同時上線,數(shù)據(jù)上來的時候隨即把它分到兩個系統(tǒng)中去,最后比較出來的各種數(shù)據(jù),看看有沒有某一個系統(tǒng)里面各項(xiàng)指標(biāo)是明顯比另外一個高的,這就是隨機(jī)對比測試。在電商里面做隨機(jī)對比測試,其實(shí)有很多需要考慮的東西。比如說我要關(guān)注的指標(biāo)是什么?是不是多少人瀏覽?這是一種。是不是點(diǎn)擊率呢?是不是點(diǎn)擊前耗損?就是說用戶在點(diǎn)擊之前看了多久頁面才做了點(diǎn)擊,這意味著是不是我們的頁面戰(zhàn)時是不是對的?還有展示的商品是不是對的?是不是符合預(yù)期的?還有成交率、成交額,實(shí)際上每個系統(tǒng)都不一樣,有優(yōu)缺點(diǎn)。比如說你實(shí)際上要看點(diǎn)擊率,實(shí)際上ebay我們做了一個算法,在每一個查詢上做的錯誤,導(dǎo)致這個用戶一搜出來,他實(shí)際上是要搜集一個普通的東西,結(jié)果出來一堆女生的泳裝,那點(diǎn)擊率可高了。所以你如果要看點(diǎn)擊率,就會覺得這是對的,但是實(shí)際上不是。

    看成交率行不行呢?我們曾經(jīng)把我們搜集引擎修改了一下,造成的結(jié)果價格比較低的東西,它更傾向于排在最前面,這當(dāng)然不是我們的意愿,但是出來結(jié)果是這樣的,結(jié)果發(fā)現(xiàn)商品成交數(shù)很快很升。你們知道ebay的商業(yè)模式跟天貓很像,就是成交之后抽成。結(jié)果買了很多很便宜的東西,商品數(shù)量上去了,但是實(shí)際上ebay的賺到的錢下降了。你到底是考慮提高商品成交的數(shù)目還是讓你公司多賺錢,也是需要考慮的。
    還有成交滿意率,你不管商品質(zhì)量怎么樣,只要看起來很漂亮的,不管是不是假貨都往上推,只管成交量,不管評價,可能滿意率就下降了。
    還有測試對象怎么去隨機(jī)篩選,也是需要考慮的。還有測試結(jié)果的誤差分析和P值計(jì)算。你到底是變成幾天,出來的結(jié)果怎么證明說B系統(tǒng)比A系統(tǒng)好?統(tǒng)計(jì)上是顯著的,不是因?yàn)橐恍╇S機(jī)的誤差。還有你做測試的時候還要考慮周期性、季節(jié)性,電商里面季節(jié)性是非常明顯的,周末和非周末,購貨的旺季和非旺季,就像年底,買的東西肯定就不一樣。我就發(fā)現(xiàn)我們當(dāng)時做的一些測試,在平時我發(fā)現(xiàn)我們新算法是算好的,但是到了圣誕節(jié)這段時間,就發(fā)現(xiàn)新算法反而不好,所以電商里面季節(jié)性、周期性是要好好考慮的。

    還有多模塊之間的干擾,舉個例子來說,我們做搜索引擎的時候,用戶做輸入關(guān)健詞,我們就會做查詢分析。比如說你搜移動電話,我們知道移動電話和手機(jī)是同義詞,所以我就把移動電話和手機(jī)的結(jié)果都顯示出來了。比如說你搜索蘋果,一開始沒有蘋果手機(jī),你搜索“蘋果”,我只把水果反饋給你。后來又了蘋果手機(jī),我就又把蘋果手機(jī)也加進(jìn)來了。但是因?yàn)楸澈蟮呐判蛳到y(tǒng)是基于很多指標(biāo)的,比如說你商品的點(diǎn)擊率、購買率怎么樣,會加上去。這就導(dǎo)致我雖然把蘋果手機(jī)和蘋果水果都都反饋回來了,但是這個排序的算法里面,它還會把以前就會出來的商品排得更高,以至于新返回回來的蘋果手機(jī)排在很后面。所以你說這個查詢擴(kuò)展效果是好還是不好?這就有一個模塊干擾效應(yīng)。比如說我做了一個搜索引擎,我覺得經(jīng)過手機(jī)比較好賣,我就把跟手機(jī)有關(guān)的搜索引擎,把蘋果的排序高一些??墒钦梦覀兊膹V告位正好都是蘋果手機(jī),用戶一搜索一看,廣告位上都是很漂亮的圖片,蘋果手機(jī)。他直接點(diǎn)了廣告位了,那這是不是說明你這個排序算法不好呢?如果過一段時間,廣告位又被三星手機(jī)了,這時候排序算法你多返回蘋果手機(jī)可能又有用了。
    花很多時間講隨機(jī)對比測試,因?yàn)檫@真的是太重要了。在統(tǒng)計(jì)界,一般覺得隨機(jī)對比有幾個限制,一個是客觀限制。比如說你要測試說我要送宇航員去月球。是派三個宇航員呢還是四個呢?派三個是兩男一女還是兩女一男呢還是統(tǒng)一性別呢?你要做測試的時候是不可能的,總不可能多發(fā)射幾次試試吧。還有倫理的限制,要證明抽煙有害健康,這其實(shí)很不好測試。比如說我做隨機(jī)對比測試,選了100萬個青少年,50萬不允許抽煙,50萬讓他們天天抽煙,幾十年之后看看患肺癌情況有沒有不同?這是違反倫理道德的。這兩個可能對我們這邊沒有什么影響,但是第三個情感限制對我們是有啟示的。  亞馬遜曾經(jīng)做過測試,它有了新的算法,說我怎么給我的商品定價,結(jié)果它就拿去做AB測試了。結(jié)果有用戶在自己的電腦上買了東西,結(jié)果到他朋友的電腦上去看,價格低了5塊錢,他就很惱火,說你們亞馬遜是不是經(jīng)常這么騙我的錢。當(dāng)時這個事情鬧得很大,最后他們CEO親自出來說,這是我們在定價策略上做的一個測試,并沒有試圖去訛?zāi)銈兊腻X,只是一個測試,以后我們再也不這么干了。美國大陸??展舅沧鲞^測試,比如說飛機(jī)晚點(diǎn),他要給旅客道歉。他要把需要道歉的旅客隨機(jī)分為三類,一類給旅客發(fā)道歉信,一類既給道歉信又發(fā)補(bǔ)償金,還有一類就根本不理他,隨他去吧。這樣他們實(shí)際上做成功了,最后發(fā)現(xiàn)賠償金加道歉書的一類人,接下來的時間在航空公司消費(fèi)大大增加,總的來說一年可以多賺一兩億。這個雖然是成功了,但是非常兇險,如果萬一幾個客戶都在一組,他們一比較,發(fā)現(xiàn)你跟他道歉,給他發(fā)錢,不給我道歉,是很有風(fēng)險的。所以我們需要慎重,一方面技術(shù)上需要慎重,另外一方面就是在決策、情感上面慎重。

    總結(jié)一下大數(shù)據(jù)思維,大數(shù)據(jù)思維實(shí)際上都是虛的概念,我這里也是虛的。

    首先我覺得要重視數(shù)據(jù),讓數(shù)據(jù)說話。首先是要收集數(shù)據(jù),現(xiàn)在大數(shù)據(jù)架構(gòu)能夠幫助你收集各種各樣的數(shù)據(jù),而且能夠很快地把數(shù)據(jù)收集出來讓你使用。接下來就是要讓“正確”的數(shù)據(jù)說話,基于業(yè)務(wù),明確優(yōu)化的目標(biāo),代表性的樣本或者全體數(shù)據(jù),隨即對比測試數(shù)據(jù)?,F(xiàn)在大家都說數(shù)據(jù)科學(xué)家,我覺得數(shù)據(jù)科學(xué)家有一個很重要的數(shù)據(jù)是很重要的,就是對業(yè)務(wù)的理解。馬化騰也說,我現(xiàn)在不擔(dān)心其他的公司,但是我擔(dān)心不知道90后在想什么,他不懂業(yè)務(wù),就不知道業(yè)務(wù)應(yīng)該怎么定位。我的朋友也說的現(xiàn)在的90后和00后不可理解了,他說有一天在小區(qū)里面忽然有個小姑娘沖出來抱住我的腿說叔叔你娶了我吧,后面***媽走出來說,你今天就結(jié)婚也得去上學(xué),00后的思維很難捕捉。我同學(xué)說他繼續(xù)往前走,去學(xué)校找他新認(rèn)識的女朋友。結(jié)果在校門口有一個小男孩說,給你一百塊錢,你一定要幫我出席一下我的家長會。沒辦法,就幫他去。結(jié)果一進(jìn)教室門馬上跪下說,老婆你一定要相信我,這不是我的孩子。原來小朋友的班主任就是他的女朋友。
    所以要讓正確的數(shù)據(jù)說明,所以我們要基于業(yè)務(wù)明確優(yōu)化目標(biāo)。然后選擇樣板,樣板是要有代表性的或者是全體數(shù)據(jù)。還有,我們要合適的利用隨機(jī)對比測試。其實(shí)都是統(tǒng)計(jì)里的東西,大數(shù)據(jù)相比統(tǒng)計(jì)有更多的范疇,或者說有很多地方還是不一樣的。比如說統(tǒng)計(jì)里面特別關(guān)注的是數(shù)據(jù)的質(zhì)量如何?有多少誤差、多少噪音?大數(shù)據(jù)可能對這一塊有其他的辦法去解決它,所謂混雜性,在大數(shù)據(jù)里面就沒有那么重要。以前我們思考問題的時候,一般都會講因果性??赡茉诖髷?shù)據(jù)時代,我們可能更多要關(guān)注的是相關(guān)性。
    看個例子,在一般網(wǎng)上我們都會做拼寫糾正或者同義詞挖掘,怎么做?一上來我們就通過自然語的規(guī)則,通過語義來找同義詞,這樣想就完蛋了,因?yàn)榛ヂ?lián)網(wǎng)很多不是基于自然語義的詞。比如說Ipone,并不是什么詞,而是別人推出來的商品,而且要耗費(fèi)大量的人力,沒準(zhǔn)哪天就又變了。拼寫糾正,商品推薦,這都需要有相關(guān)性。當(dāng)然有其他因素,一個最主要的因素,我在同一個會話里面,看這個同一個詞出現(xiàn)的概率有多高?比如說Ipone,后面的“e”掉了,搜集這個,因?yàn)橛梦疫@個網(wǎng)站的人太多太多了,用這個的也很多,因?yàn)楹芏嗳朔竿瑯拥腻e誤,我把樣本拿出來看,很多人發(fā)現(xiàn)這個錯誤,所以又改過來了,所以你看他們的會話的時候,第一個查詢是少個“e而”的,第二個是把它補(bǔ)正確的。而且第一個查詢沒有點(diǎn)擊,第二個查詢之后就有點(diǎn)擊,或者馬上換了詞查詢。所以在大數(shù)據(jù)時代會給我們很多非常準(zhǔn)確還有有聯(lián)系的信息,都有相關(guān)性。有很多搜索詞都是很相關(guān)的,如果真的很關(guān)聯(lián)的話,你把數(shù)據(jù)拿出來看,大數(shù)據(jù)一看,真正相關(guān)的關(guān)健詞真的是很大范圍上在同一個會話里面出現(xiàn),所以所有東西都可以通過會話的相關(guān)性來解決。
    包括推薦引擎基本原理也一樣,如果兩個商品,真的有內(nèi)在聯(lián)系的,當(dāng)然你可以雇一幫專家,去給你建字典、建這個樹,沒問題,是可以做,但是沒有拓展性,而且耗費(fèi)人力。其實(shí)搜索引擎也是看業(yè)務(wù)的相關(guān)性,如果兩個商品真的很相關(guān),有內(nèi)在聯(lián)系,大數(shù)據(jù)拿出來一看,相關(guān)的商品經(jīng)常被同一個用戶所購買。你發(fā)現(xiàn)這個規(guī)律,如果這個用戶只買了一個商品,你就可以推薦另外一個商品,這是推薦的基本原理。
    有很多很多大數(shù)據(jù)挖掘的案例,包括搜索商品的搜索算法,我們當(dāng)然可以做很簡單的搜索,比如說按價格排序,按上架時間排序,按很多方法,按商家的滿意度排序,都可以排。這都是單一的排序,不能滿足我們的需求,而且很容易被被商家所利用。比如說ebay,按上架時間或者按結(jié)束時間排序,那很多商家明明只有一個商品在賣,但是給你24小時重復(fù)上載到幾十次,人家一搜索的話,他商品就出現(xiàn)了。你可以要有一個好的算法,你要考慮去猜測客戶的意圖,你可以建立很多很多規(guī)則,比如說“城市多金男”喜歡什么樣的東西,會有什么追求,可以建立這樣的規(guī)則。但是我不說大家也知道這里面有很多問題。

    現(xiàn)在搜索引擎怎么做?我已經(jīng)做過核心算法,我就把跟搜索引擎有關(guān)的數(shù)據(jù)一個一個弄出來。比如說對我們電商的排序系統(tǒng),涉及到幾個大類的信息,有幾個用戶本身的信息,他的背景是什么?曾經(jīng)購買過什么樣的商品?購買商品的類型是什么?商品本身的信息,商量的質(zhì)量如何、價格如何?圖片好不好看?背后的商家如何?歷史的點(diǎn)擊如何?諸如此類的,你把這個數(shù)據(jù)拿出來,就會形成很多的舉證。我現(xiàn)在再把歷史的成交數(shù)據(jù)拿出來,看看哪些是真正成交了的,哪些是沒有成交的。這樣我們就形成了一個精確的舉證,然后每一個背后還有一個分析,說這個是真實(shí)成交的,零就是非成交的,就有這種樣本,然后就把這個數(shù)據(jù)推給機(jī)器學(xué)習(xí)的算法,給你一個預(yù)測的值。預(yù)測出來,你會發(fā)現(xiàn),可能之前想象一點(diǎn)都沒有用,但是可能它很有用。比如說ebay之前做的測算,商品圖片的大小,對商品銷售就很有影響,你之前根本想不到。它出來的結(jié)果可能沒有因果性,你也沒法去解釋,沒關(guān)系,在大數(shù)據(jù)里,你只要找出相關(guān)性就可以了。
    我們都知道,如果我們知道一個人已經(jīng)懷孕了,她要生寶寶了,這種客戶實(shí)際上是很好的客戶,因?yàn)樗鷮殞氈缶鸵I很多很多東西,這是美國各大商家試圖在爭取的用戶。他做了一個預(yù)產(chǎn)期的預(yù)測,預(yù)測之后,他就給客戶發(fā)廣告,說商品打折。結(jié)果他給一個17歲的女孩發(fā)了,他老爸發(fā)現(xiàn)了就很生氣,就沖到他們本地的店,說怎么回事,你們是鼓勵未成年人懷孕嗎?結(jié)果幾周后他又跑來說,真對不起,我女兒真的懷孕了。如果要預(yù)測預(yù)產(chǎn)期?怎么辦?只能找這種相關(guān)性。他就發(fā)現(xiàn)我們歷史當(dāng)中已經(jīng)知道她懷孕的,她買了很多尿布,在她買了很多尿布之前,比如說很多人在懷孕的前七八個月,買那種沒有香味的護(hù)膚乳液,或者說有很多東西就不買了。通過相關(guān)商品預(yù)測某個女人是不是懷孕了,而且是多久以前懷的孕,多久之后生寶寶,他就會定向投放。當(dāng)然他也學(xué)乖了,之前是廣告赤裸裸地郵寄給你,后來就把很多廣告放在一起發(fā),把小孩的廣告放在中間,顯得好象漫不經(jīng)心。
    像剛才舉的例子里面可以分為兩類,一類是對已有的產(chǎn)品的改造,比如說搜索引擎找就有了,推薦算法找就有了。在大數(shù)據(jù)時代,你可以通過大數(shù)據(jù)提高已有算法的。還有一類,對于很有大數(shù)據(jù)思維的人,他可能就想利用大數(shù)據(jù)一些新的手段、新的思維。比如說Farecast和Decide,都是同一個教授做的,是華盛頓大學(xué)的教授。他在2007、08年開始做Farecast,預(yù)測機(jī)票價格,他就告訴你你要去夏威夷玩,是十個月之前買票還是之后買票便宜,就做這個東西,這個東西2009年被微軟重金收購。然后教授馬上又想,我預(yù)測了這個,我能不能預(yù)測這個商品的價格,他一開始主要專注于電子產(chǎn)品的價格預(yù)測。預(yù)測價格,又被ebay收購了。所以有這個思維的人,有了這樣大數(shù)據(jù),我怎么去產(chǎn)生一個新的產(chǎn)品,產(chǎn)生一個新的應(yīng)用,這個應(yīng)用滿足用戶的某種需求。我覺得這對于大數(shù)據(jù)時代是最需要、最難的,怎么去海闊天空地想這些東西。
    大數(shù)據(jù)的應(yīng)用層次,這里簡單說一下,最基礎(chǔ)的層次,就是說我要把大數(shù)據(jù)采集下來,要整理要管理。比如說以前我是不可能把用戶的采購歷史整理下來的,是不可能把用戶的資料翻出來的,大數(shù)據(jù)時代就可以了。ebay就可以了,你用ebay的話以往就只能查詢最近一段時間的購買記錄,現(xiàn)在可以了,你可以把歷史購買數(shù)據(jù)和最近數(shù)據(jù)調(diào)出來,就可以做一些個性化的數(shù)據(jù)分析。這是所有數(shù)據(jù)操作的基礎(chǔ),之上就有數(shù)據(jù)報(bào)表和商業(yè)分析,以前可能沒法說很快產(chǎn)生一個數(shù)據(jù)報(bào)表,而且是用很多很多數(shù)據(jù)來呈現(xiàn),可能就很難做到?,F(xiàn)在像ebay要做報(bào)表的話,上面領(lǐng)導(dǎo)分析做一個報(bào)表,就問他你要用一個月一年不還是幾年呢,說是一年的,那幾小時候給你,如果是一個月的話,我?guī)追昼娋涂梢越o你,用全體數(shù)據(jù),出來結(jié)果很快,也是大數(shù)據(jù)幫助我們做到的。第三個層次是所謂的數(shù)據(jù)科學(xué),數(shù)據(jù)科學(xué)重視的更多是怎么去建模,怎么去預(yù)測。我想這就是三個層次,一個是基本的管理,一個是簡單的分析,最后一個是數(shù)據(jù)科學(xué)家。
    我們來看一個過程,想象一下,現(xiàn)在有一個購買者來到某寶網(wǎng)站,要購買東西,他在用戶瀏覽器里敲入網(wǎng)址,回車,后面會發(fā)生什么問題呢?哪些事情跟大數(shù)據(jù)有關(guān)呢?這也是我們之前負(fù)責(zé)搜索科學(xué)家招聘的時候喜歡問的一個問題。我們考慮一下,首先用戶打入網(wǎng)址之后,網(wǎng)址就遞交到DNS,DNS會把IP地址反饋給你。大數(shù)據(jù)時代DNS可能是在不同地方的,會把不同的IP地址反饋出客戶不同的地理位置到數(shù)據(jù)中心。到了數(shù)據(jù)中心之后,會把數(shù)據(jù)做一個分流,這樣做到第一步的分流,把流量分到不同的服務(wù)中心。到了服務(wù)中心之后,現(xiàn)在用大數(shù)據(jù)的底層架構(gòu),把數(shù)據(jù)的基本信息和歷史信息都給掏出來,掏出來之后給它產(chǎn)生個性化的首頁。個性化之后,用戶搜索框輸入東西,比如說那樣輸入了幾個數(shù)據(jù)或者漢字,我們給他一個輸入幫助系統(tǒng),不需要輸入全部,效率就提高了。還有拼寫糾錯系統(tǒng)也一樣,還有查詢理解,猜測用戶意圖進(jìn)行擴(kuò)展。比如說前面說了,人家輸入了移動電話,手機(jī)也是移動電話,返回里面不光有移動電話商品,還有手機(jī)的商品,做了查詢擴(kuò)展的理解。系統(tǒng)根據(jù)這些擴(kuò)展的查詢,把商品拿回來了,拿回來之后做排序,你要進(jìn)一步猜測用戶最想要什么東西,他是想要手機(jī),因?yàn)樗斎肓耸謾C(jī)。我要猜測這個用戶喜歡什么樣的手機(jī),你就要根據(jù)個性化和商品屬性排序,就用我們前面說過的相關(guān)性利用機(jī)器學(xué)習(xí)的模型做排序,這里面還有個性化或者差評交易預(yù)防,它就可以預(yù)測說如果這個用戶買了這個商品,最后給差評的科學(xué)家有多少?這都有模型,最后放到總的搜索排序的模型下面來用。
    頁面一打開,你會發(fā)現(xiàn)搜索框里有相關(guān)搜索,還有商品推薦,右面頁面最流行什么東西,給你顯示出來,還有廣告的顯示,用戶輸入什么,我就顯示什么廣告,這都是個性化。還有相關(guān)導(dǎo)購的信息,最后我們有很多導(dǎo)購的文本,我們應(yīng)該在什么時候應(yīng)該給用戶?比如說我輸入電冰箱,導(dǎo)購網(wǎng)站,比如說一淘有很多電冰箱相關(guān)的內(nèi)容,你就把這種文本性的東西也可以顯示出來。
    這些用黃色字體都是大數(shù)據(jù)挖掘代表的,還有用戶點(diǎn)擊商品之后,還有商品情況的獲取,很快,還有商品推薦。這就是一個簡單的流程。
    最后簡單說一下大數(shù)據(jù)時代的電商趨勢。現(xiàn)在電商趨勢我認(rèn)為有很多維,比如說移動化、還有導(dǎo)購化,比如現(xiàn)在一淘也做導(dǎo)購,因?yàn)楝F(xiàn)在網(wǎng)上的商品太多了,沒發(fā)選,所以你要教育用戶,這就是導(dǎo)購化。還有國際化,像ebay我離開之前,做一個項(xiàng)目是要支持國際購買,比如說俄羅斯人購買東西,我不光把俄羅斯的東西返回給你,還要把這些英文翻譯成俄羅斯文返回給你。還有垂直化,現(xiàn)在幾大巨頭壟斷了,我的小的電商怎么生存?或者大電商里面某一個部門怎么提高業(yè)績?這里就有一個垂直化,我們要根據(jù)這個領(lǐng)域好好把這個事情做好。在國外有很多做垂直領(lǐng)域的電商,現(xiàn)在其實(shí)都做得不錯。我覺得最重要的趨勢都是O2O,因?yàn)楝F(xiàn)在互聯(lián)網(wǎng)這么發(fā)達(dá),還有各種各樣的傳感器、智能家居,還有智慧城市等等各種各樣的東西,會導(dǎo)致購物的意向會在隨時隨地出現(xiàn),并且隨時都能夠滿足,這里面就涉及到O2O。O2O里面就涉及到兩方面,一方面是商品的購買,一方面是服務(wù)的購買。服務(wù)購買就跟本地生活很向卷,這也是O2O的一部分,最早是做團(tuán)購,現(xiàn)在更多是做一些服務(wù)。O2O里面還有最重要的一部分內(nèi)容,我猜想是社區(qū)電商。因?yàn)樯鐓^(qū)是中國最有特色的東西,美國沒有這種社區(qū)。一進(jìn)一個大門,幾千戶幾萬人住在一個社區(qū)里面。社區(qū)電商,以及社區(qū)電商之外怎么樣去疊加其他業(yè)態(tài)。比如我做了一個社區(qū)服務(wù)或者社區(qū)的銷售點(diǎn),你怎么考慮怎么在線線下的融合。比如說我開了一家店在小區(qū)門口,除了賣東西還可以幫你代交水電費(fèi)和其他業(yè)務(wù),我覺得社區(qū)電商肯定是很重要的趨勢。我們也在做一個項(xiàng)目,因?yàn)槟阍谧鯫2O的時候,就必然涉及到線上部分和線下的部分。線上部分,我可以隨時知道我線上店的運(yùn)營情況,你現(xiàn)在就做不到,你離線在線O2O融合,你怎么融合?你怎么在商業(yè)模式上融合,怎么在數(shù)據(jù)上融合?我做的一個項(xiàng)目可以幫你把離線店做成在線店一樣,你今天來了多少用戶,老年人有多少?懷孕的用戶有多少?我們看了什么?看完這個是不是也喜歡看那個?轉(zhuǎn)化率多少?進(jìn)店率多少?等等等等。在線店應(yīng)該有的東西,離線店也應(yīng)該有,在這樣基礎(chǔ)之上,我們就可以真正做在線和離線的融合,在業(yè)務(wù)上,在數(shù)據(jù)上都能夠融合。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }