大數據思維與電商技術創(chuàng)新
我現在已經離開ebay了,ebay這個公司實際上在商業(yè)模式上比較保守的公司,對比一下你就能夠知道它跟阿里巴巴的區(qū)別了。但是這幾年ebay在技術上投入比較大,技術主要用在Buyer上了,比如說有很多技術怎么幫助買家猜測他的意圖,賣家上,我怎么去幫助賣家把這個東西賣上去,比如說價格預測,分類。劉明為賣家服務這方面是做得非常突出和優(yōu)秀的,我們經常一起聚會,他是我們的頭。
ebay這個公司應該說在商業(yè)模式上創(chuàng)新比較少,用我們時下比較流行的術語說就是“缺乏互聯網思維”,但是在技術上投入是比較多的,應該說它這個大數據思維是有的。剛才劉明分享了很多“干貨”,所以大家可以看我的題目,《大數據思維與電商技術創(chuàng)新》,一看就是一個比較忽悠的抬頭,所以我講的是比較忽悠的東西。我的背景比較雜,最早學的是數學,后來學了計算機,有三個碩士學位,一個博士學位,比較書呆,看的書比較多,但是做的比較少,所以比較忽悠。
我是去年12月份回國的,為什么回國呢?有一個小故事。去年12月份的時候主持了一個國際
數據挖掘的大會,是一個比較好的大會。當時我們邀請了一些嘉賓,包括ebay公司管技術的副總,還有百度的
深度學習部門的副總,百度的副總在那里演講說我們這里做
深度學習,去年7月份立項,11月份就有幾個項目上線了,當時我們副總一聽太奇怪了,在我們那里光是討論光是立項可能就要半年,人家4個月已經出東西了,我說當然,中國是很有活力的,你只是看到這個,如果你用一下我們中國出的一些新軟件,微信、來往,支付寶等等,你要用這些軟件就會發(fā)現美國的軟件弱爆了,那他說你為什么還在這里?我跟他相視一笑,那個大會開完的第二周,我們副總離職了,我也離職了,副總離職不是我干的(笑)。
子遨問我講什么,我就跟他說講“大數據思維和電商技術創(chuàng)新”,結果前兩天我上微信一看的,下面這段很流行了,說“化緣的改叫眾籌了,辦公室出租改叫孵化器了,放高利貸的改叫資本運作了,忽悠的叫互聯網思維了,統(tǒng)計改叫大數據分析”。我一看到這個,我想我還講不講這個,太忽悠了。后來我用我的邏輯思考了一下,這里面兩個東西都很像,但它們并不是統(tǒng)計的東西,所以我覺得還是可以過來忽悠一下。
在講正題之前,大家該給我看看我這個表弟應該干啥?張三他非常靦腆,少言寡語,他很樂于助人,但對他人或者這個現實世界沒有興趣,他恭謹有禮,做事井井有條,中規(guī)中矩,他喜歡整理物件,家里東西擺放很齊整。張三更可能從事下面兩個職業(yè)中的哪一個?是圖書管理員還是打工仔?你如果是直覺來思考的話,覺得他可能是圖書管理員,因為我們直覺是不懂統(tǒng)計的。如果你稍微考慮一下你會發(fā)現,中國打工仔有幾億,圖書管理員有幾個。如果你考慮統(tǒng)計的話,你就會發(fā)現這個他更可能成為打工仔。這個在心理學中有論述,人的思維有很多很多
偏差,這個是其中一種
偏差,叫相似形啟發(fā)
偏差。直覺告訴我們這個人描述跟圖書管理員很相似,所以我們覺得他可能做圖書管理員,直覺是不懂統(tǒng)計的。像我剛才讀的那段話,直覺告訴我們好象是那么回事,是因為直覺是不會深入思考。
大家看這個,這是一個漩渦圖嗎?它不是,實際上很多同心圓在這里,所以這里告訴視覺也是有
偏差的。
給你們講一個故事,是美國的故事,說人死了之后要進天堂,天堂不是什么人都可以進的,有人看守的,你要進就要回答一個問題,是一個聽寫的單詞。這時候一個白人進來了,守門人就說,你幫我拼寫一下上帝這個單詞,很簡單嘛。這時候來了一個黑人,說你幫我拼寫一個捷克斯洛伐克這個單詞,黑人傻眼了。所以這告訴我們,人做決策的時候,都是有立場的
偏差的。你無論是多么理性的人,都或多或少的有
偏差。
這個故事很有意思,說以色列有8位保釋官,每天工作都是審理保釋申請。保釋申請很多,他們每天除了三餐就在審理,每份保釋申請需要6分鐘,平均通過率是35%。這時候就有美國的科學家?guī)退麄內プ鰯祿治?,結果數據出來讓所有人都非常驚訝,為什么?他們發(fā)現當保釋官吃完飯坐下剛開始批的時候,批準率有65%,慢慢隨著時間過去,批準率穩(wěn)步下降。到了他們即將下班或到了他們下一頓飯到來之前,批準率幾乎為零。所以這告訴我們,人的思維是有多大的
偏差,很受生理等各方面的影響。
這本書我強烈推薦一下,就是《思考,快與慢》,它講的所謂快思維就是直覺,慢思維就是理性思維。
講了這么多,我們想說一個很簡單的問題,人的思維有各種各樣的
偏差,我們要做決策、要做創(chuàng)新、要做管理,如果只依賴于我們人的思維的話,是不行的。那怎么辦?就要數據化,在大數據時代,我們要有大數據的思維。這種思維對我們中國人來說,可能是更加重要。因為歷史上很多人都說,我們中國人是“差不多”先生,什么事都差不多就好,不會去深入分析背后的原因,也不會去搞一些數據分析。像中國討論問題的時候都會說我的經驗告訴應該怎么樣?美國一些受過比較好訓練的人就會說你把數據給我。重視數據是必然的,現在也是也到了這樣一個時代,隨著各種傳感器、手機,移動互聯網的盛行,很多東西都數據化了,有句話說一切皆可數量化。數量化之后我們就要開始考慮怎么樣讓我們收集到的數據讓它說話?
比如說我們收集到的一些數據,我們來看看這個例子,說某寶網站上有兩個商家,他們都做成了一千宗生意,這是數據告訴我們的,A店鋪是客戶好評是20%,B店鋪客戶好評率是80%,某位“親”要買這兩個店鋪都提供的商品,應該選哪個店鋪?直覺告訴我應該選好評率高的,80%,干嘛選20%的?現在淘寶系統(tǒng)也是這樣,我們去看某一個商品,看到了店鋪商品符合率有多少,好評率有多少?都給這種數據。實際上讓我們來看,舉個例子來看。假設A商家都只賣電冰箱和手電筒。A商家賣了900臺好評,其中有100個有好評,手電筒賣了100個,有100個好評,所以它中好評率是多少?20%。B商家賣了100個冰箱,沒有一個好評的,賣了900個手電筒,還有100個說不好。你看了這個數據只有,你還會找B買東西嗎?有了這個數據之后,怎么用這個數據,對我們要求還是比較多的,要懂這些統(tǒng)計,要深入分析我們到底需要什么?業(yè)務上的需求是什么?我們感興趣的核心數據是什么?而不是隨便拿一個數據過來忽悠。
美國競選民意調查,每次競選都有很多民意調查,還有一些州的首腦競選。1936年的時候,Roosevelt總統(tǒng)和AlfLandon競選,最后有一個民調公司做了一個民調。怎么做的?它向上千名擁有電話的人寄出了明信片,然后有230萬人回應說我選Landon。結果民調公司一看,這么多人回復,抽樣樣本這么大,就說羅斯福當選不了,結果就是羅斯福當選了。為什么?因為當時擁有電話的人都是比較有錢的人,他多半是共和黨。所以這個采樣,就是有偏的采樣。
2012年Abama和Romney的競選,一開始大家覺得Abama不錯,后來第一輪總統(tǒng)辯論之后大家覺得Abama太爛了,所以又有很多人說Romney贏。因為很多民調公司發(fā)現第一次演講之后,Romney的支持率大大上升。但是實際上有一家民調公司說不是,他的依據就是,在變論前后都做了民意調查,其中有70%都是參加了這兩次民意調查,這70%的人立場幾乎沒變,還是Abama領先。為什么其他民調公司會以為Romney贏呢?因為第一次民調之后,Romney表現得那么好,以前不想投票的那些人紛紛要來投票,所以參與率比較高,所以樣本已經變化了。
還Bradley effect,這是洛杉磯的黑人市長,他競選加州州長的時候,民調一路領先,后來沒有當選。為什么?因為當人家去問選民說你要投誰呀?選民說我要不投黑人,是不是會懷疑我有種族歧視,所以說投黑人,結果真正投的時候又不投。
所以先要獲取“正確”的決策數據,首先目標要非常明確,你要知道你要什么。比如說選商鋪,我們給出來的數據是商鋪的總好評率,但這個總好評率并不等于它每一個商品的好評率會高,對吧?美國民調也是這樣的,它樣本的選取,背后隱含的假設是說我選的這些樣本是有代表性的我,我的選民邀請是完全隨機,選民接受民調的比率,兩黨的選民都是類似的,而且選民在說實話,這就是它隱含的假設。所以我們分析的時候首要要看你想要什么,我們的目標是什么?還有我們收集的數據,數據本身是什么?我們本身有沒有隱含一些假設,這些假設是否是滿足的?
我們看一下這個例子,這實際上是ebay真實做過的一個測試,頁面有兩種布局,我們是每行顯示三個商品,圖片小一點還是每行少顯示一些,圖片大一點。這兩種設計公說公有理,婆說婆有理。最簡單的方法,說我先用你小的圖片,過兩天再用大圖片,對比一下購買率、點擊率有沒有上升?這是一種方法,但是是行不通的。比如說這兩天我把你大圖片放上去了,馬上過周末了,我們做電商的都知道,周末跟平時很不一樣的,你看到周末數據升高,是不是大圖片好呢?不知道。所以在統(tǒng)計里面做這種決策的話,最重要的是一個隨機對比測試。隨機對比測試很簡單,在統(tǒng)計里面,在大數據里面都是一樣的。所謂隨機對比測試,就是需要把新的算法做成一個新的系統(tǒng),然后跟舊系統(tǒng)同時上線,數據上來的時候隨即把它分到兩個系統(tǒng)中去,最后比較出來的各種數據,看看有沒有某一個系統(tǒng)里面各項指標是明顯比另外一個高的,這就是隨機對比測試。在電商里面做隨機對比測試,其實有很多需要考慮的東西。比如說我要關注的指標是什么?是不是多少人瀏覽?這是一種。是不是點擊率呢?是不是點擊前耗損?就是說用戶在點擊之前看了多久頁面才做了點擊,這意味著是不是我們的頁面戰(zhàn)時是不是對的?還有展示的商品是不是對的?是不是符合預期的?還有成交率、成交額,實際上每個系統(tǒng)都不一樣,有優(yōu)缺點。比如說你實際上要看點擊率,實際上ebay我們做了一個算法,在每一個查詢上做的錯誤,導致這個用戶一搜出來,他實際上是要搜集一個普通的東西,結果出來一堆女生的泳裝,那點擊率可高了。所以你如果要看點擊率,就會覺得這是對的,但是實際上不是。
看成交率行不行呢?我們曾經把我們搜集引擎修改了一下,造成的結果價格比較低的東西,它更傾向于排在最前面,這當然不是我們的意愿,但是出來結果是這樣的,結果發(fā)現商品成交數很快很升。你們知道ebay的商業(yè)模式跟天貓很像,就是成交之后抽成。結果買了很多很便宜的東西,商品數量上去了,但是實際上ebay的賺到的錢下降了。你到底是考慮提高商品成交的數目還是讓你公司多賺錢,也是需要考慮的。
還有成交滿意率,你不管商品質量怎么樣,只要看起來很漂亮的,不管是不是假貨都往上推,只管成交量,不管評價,可能滿意率就下降了。
還有測試對象怎么去隨機篩選,也是需要考慮的。還有測試結果的誤差分析和P值計算。你到底是變成幾天,出來的結果怎么證明說B系統(tǒng)比A系統(tǒng)好?統(tǒng)計上是顯著的,不是因為一些隨機的誤差。還有你做測試的時候還要考慮周期性、季節(jié)性,電商里面季節(jié)性是非常明顯的,周末和非周末,購貨的旺季和非旺季,就像年底,買的東西肯定就不一樣。我就發(fā)現我們當時做的一些測試,在平時我發(fā)現我們新算法是算好的,但是到了圣誕節(jié)這段時間,就發(fā)現新算法反而不好,所以電商里面季節(jié)性、周期性是要好好考慮的。
還有多模塊之間的干擾,舉個例子來說,我們做搜索引擎的時候,用戶做輸入關健詞,我們就會做查詢分析。比如說你搜移動電話,我們知道移動電話和手機是同義詞,所以我就把移動電話和手機的結果都顯示出來了。比如說你搜索蘋果,一開始沒有蘋果手機,你搜索“蘋果”,我只把水果反饋給你。后來又了蘋果手機,我就又把蘋果手機也加進來了。但是因為背后的排序系統(tǒng)是基于很多指標的,比如說你商品的點擊率、購買率怎么樣,會加上去。這就導致我雖然把蘋果手機和蘋果水果都都反饋回來了,但是這個排序的算法里面,它還會把以前就會出來的商品排得更高,以至于新返回回來的蘋果手機排在很后面。所以你說這個查詢擴展效果是好還是不好?這就有一個模塊干擾效應。比如說我做了一個搜索引擎,我覺得經過手機比較好賣,我就把跟手機有關的搜索引擎,把蘋果的排序高一些。可是正好我們的廣告位正好都是蘋果手機,用戶一搜索一看,廣告位上都是很漂亮的圖片,蘋果手機。他直接點了廣告位了,那這是不是說明你這個排序算法不好呢?如果過一段時間,廣告位又被三星手機了,這時候排序算法你多返回蘋果手機可能又有用了。
花很多時間講隨機對比測試,因為這真的是太重要了。在統(tǒng)計界,一般覺得隨機對比有幾個限制,一個是客觀限制。比如說你要測試說我要送宇航員去月球。是派三個宇航員呢還是四個呢?派三個是兩男一女還是兩女一男呢還是統(tǒng)一性別呢?你要做測試的時候是不可能的,總不可能多發(fā)射幾次試試吧。還有倫理的限制,要證明抽煙有害健康,這其實很不好測試。比如說我做隨機對比測試,選了100萬個青少年,50萬不允許抽煙,50萬讓他們天天抽煙,幾十年之后看看患肺癌情況有沒有不同?這是違反倫理道德的。這兩個可能對我們這邊沒有什么影響,但是第三個情感限制對我們是有啟示的。 亞馬遜曾經做過測試,它有了新的算法,說我怎么給我的商品定價,結果它就拿去做AB測試了。結果有用戶在自己的電腦上買了東西,結果到他朋友的電腦上去看,價格低了5塊錢,他就很惱火,說你們亞馬遜是不是經常這么騙我的錢。當時這個事情鬧得很大,最后他們CEO親自出來說,這是我們在定價策略上做的一個測試,并沒有試圖去訛你們的錢,只是一個測試,以后我們再也不這么干了。美國大陸??展舅沧鲞^測試,比如說飛機晚點,他要給旅客道歉。他要把需要道歉的旅客隨機分為三類,一類給旅客發(fā)道歉信,一類既給道歉信又發(fā)補償金,還有一類就根本不理他,隨他去吧。這樣他們實際上做成功了,最后發(fā)現賠償金加道歉書的一類人,接下來的時間在航空公司消費大大增加,總的來說一年可以多賺一兩億。這個雖然是成功了,但是非常兇險,如果萬一幾個客戶都在一組,他們一比較,發(fā)現你跟他道歉,給他發(fā)錢,不給我道歉,是很有風險的。所以我們需要慎重,一方面技術上需要慎重,另外一方面就是在決策、情感上面慎重。
總結一下大數據思維,大數據思維實際上都是虛的概念,我這里也是虛的。
首先我覺得要重視數據,讓數據說話。首先是要收集數據,現在大
數據架構能夠幫助你收集各種各樣的數據,而且能夠很快地把數據收集出來讓你使用。接下來就是要讓“正確”的數據說話,基于業(yè)務,明確優(yōu)化的目標,代表性的樣本或者全體數據,隨即對比測試數據?,F在大家都說數據科學家,我覺得數據科學家有一個很重要的數據是很重要的,就是對業(yè)務的理解。馬化騰也說,我現在不擔心其他的公司,但是我擔心不知道90后在想什么,他不懂業(yè)務,就不知道業(yè)務應該怎么定位。我的朋友也說的現在的90后和00后不可理解了,他說有一天在小區(qū)里面忽然有個小姑娘沖出來抱住我的腿說叔叔你娶了我吧,后面***媽走出來說,你今天就結婚也得去上學,00后的思維很難捕捉。我同學說他繼續(xù)往前走,去學校找他新認識的女朋友。結果在校門口有一個小男孩說,給你一百塊錢,你一定要幫我出席一下我的家長會。沒辦法,就幫他去。結果一進教室門馬上跪下說,老婆你一定要相信我,這不是我的孩子。原來小朋友的班主任就是他的女朋友。
所以要讓正確的數據說明,所以我們要基于業(yè)務明確優(yōu)化目標。然后選擇樣板,樣板是要有代表性的或者是全體數據。還有,我們要合適的利用隨機對比測試。其實都是統(tǒng)計里的東西,大數據相比統(tǒng)計有更多的范疇,或者說有很多地方還是不一樣的。比如說統(tǒng)計里面特別關注的是數據的質量如何?有多少誤差、多少噪音?大數據可能對這一塊有其他的辦法去解決它,所謂混雜性,在大數據里面就沒有那么重要。以前我們思考問題的時候,一般都會講因果性??赡茉诖髷祿r代,我們可能更多要關注的是相關性。
看個例子,在一般網上我們都會做拼寫糾正或者同義詞挖掘,怎么做?一上來我們就通過自然語的規(guī)則,通過語義來找同義詞,這樣想就完蛋了,因為互聯網很多不是基于自然語義的詞。比如說Ipone,并不是什么詞,而是別人推出來的商品,而且要耗費大量的人力,沒準哪天就又變了。拼寫糾正,
商品推薦,這都需要有相關性。當然有其他因素,一個最主要的因素,我在同一個會話里面,看這個同一個詞出現的概率有多高?比如說Ipone,后面的“e”掉了,搜集這個,因為用我這個網站的人太多太多了,用這個的也很多,因為很多人犯同樣的錯誤,我把樣本拿出來看,很多人發(fā)現這個錯誤,所以又改過來了,所以你看他們的會話的時候,第一個查詢是少個“e而”的,第二個是把它補正確的。而且第一個查詢沒有點擊,第二個查詢之后就有點擊,或者馬上換了詞查詢。所以在大數據時代會給我們很多非常準確還有有聯系的信息,都有相關性。有很多搜索詞都是很相關的,如果真的很關聯的話,你把數據拿出來看,大數據一看,真正相關的關健詞真的是很大范圍上在同一個會話里面出現,所以所有東西都可以通過會話的相關性來解決。
包括推薦引擎基本原理也一樣,如果兩個商品,真的有內在聯系的,當然你可以雇一幫專家,去給你建字典、建這個樹,沒問題,是可以做,但是沒有拓展性,而且耗費人力。其實搜索引擎也是看業(yè)務的相關性,如果兩個商品真的很相關,有內在聯系,大數據拿出來一看,相關的商品經常被同一個用戶所購買。你發(fā)現這個規(guī)律,如果這個用戶只買了一個商品,你就可以推薦另外一個商品,這是推薦的基本原理。
有很多很多大
數據挖掘的案例,包括搜索商品的搜索算法,我們當然可以做很簡單的搜索,比如說按價格排序,按上架時間排序,按很多方法,按商家的滿意度排序,都可以排。這都是單一的排序,不能滿足我們的需求,而且很容易被被商家所利用。比如說ebay,按上架時間或者按結束時間排序,那很多商家明明只有一個商品在賣,但是給你24小時重復上載到幾十次,人家一搜索的話,他商品就出現了。你可以要有一個好的算法,你要考慮去猜測客戶的意圖,你可以建立很多很多規(guī)則,比如說“城市多金男”喜歡什么樣的東西,會有什么追求,可以建立這樣的規(guī)則。但是我不說大家也知道這里面有很多問題。
現在搜索引擎怎么做?我已經做過核心算法,我就把跟搜索引擎有關的數據一個一個弄出來。比如說對我們電商的排序系統(tǒng),涉及到幾個大類的信息,有幾個用戶本身的信息,他的背景是什么?曾經購買過什么樣的商品?購買商品的類型是什么?商品本身的信息,商量的質量如何、價格如何?圖片好不好看?背后的商家如何?歷史的點擊如何?諸如此類的,你把這個數據拿出來,就會形成很多的舉證。我現在再把歷史的成交數據拿出來,看看哪些是真正成交了的,哪些是沒有成交的。這樣我們就形成了一個精確的舉證,然后每一個背后還有一個分析,說這個是真實成交的,零就是非成交的,就有這種樣本,然后就把這個數據推給
機器學習的算法,給你一個預測的值。預測出來,你會發(fā)現,可能之前想象一點都沒有用,但是可能它很有用。比如說ebay之前做的測算,商品圖片的大小,對商品銷售就很有影響,你之前根本想不到。它出來的結果可能沒有因果性,你也沒法去解釋,沒關系,在大數據里,你只要找出相關性就可以了。
我們都知道,如果我們知道一個人已經懷孕了,她要生寶寶了,這種客戶實際上是很好的客戶,因為她生寶寶之后就要買很多很多東西,這是美國各大商家試圖在爭取的用戶。他做了一個預產期的預測,預測之后,他就給客戶發(fā)廣告,說商品打折。結果他給一個17歲的女孩發(fā)了,他老爸發(fā)現了就很生氣,就沖到他們本地的店,說怎么回事,你們是鼓勵未成年人懷孕嗎?結果幾周后他又跑來說,真對不起,我女兒真的懷孕了。如果要預測預產期?怎么辦?只能找這種相關性。他就發(fā)現我們歷史當中已經知道她懷孕的,她買了很多尿布,在她買了很多尿布之前,比如說很多人在懷孕的前七八個月,買那種沒有香味的護膚乳液,或者說有很多東西就不買了。通過相關商品預測某個女人是不是懷孕了,而且是多久以前懷的孕,多久之后生寶寶,他就會定向投放。當然他也學乖了,之前是廣告赤裸裸地郵寄給你,后來就把很多廣告放在一起發(fā),把小孩的廣告放在中間,顯得好象漫不經心。
像剛才舉的例子里面可以分為兩類,一類是對已有的產品的改造,比如說搜索引擎找就有了,推薦算法找就有了。在大數據時代,你可以通過大數據提高已有算法的。還有一類,對于很有大數據思維的人,他可能就想利用大數據一些新的手段、新的思維。比如說Farecast和Decide,都是同一個教授做的,是華盛頓大學的教授。他在2007、08年開始做Farecast,預測機票價格,他就告訴你你要去夏威夷玩,是十個月之前買票還是之后買票便宜,就做這個東西,這個東西2009年被微軟重金收購。然后教授馬上又想,我預測了這個,我能不能預測這個商品的價格,他一開始主要專注于電子產品的價格預測。預測價格,又被ebay收購了。所以有這個思維的人,有了這樣大數據,我怎么去產生一個新的產品,產生一個新的應用,這個應用滿足用戶的某種需求。我覺得這對于大數據時代是最需要、最難的,怎么去海闊天空地想這些東西。
大數據的應用層次,這里簡單說一下,最基礎的層次,就是說我要把大數據采集下來,要整理要管理。比如說以前我是不可能把用戶的采購歷史整理下來的,是不可能把用戶的資料翻出來的,大數據時代就可以了。ebay就可以了,你用ebay的話以往就只能查詢最近一段時間的購買記錄,現在可以了,你可以把歷史購買數據和最近數據調出來,就可以做一些個性化的數據分析。這是所有數據操作的基礎,之上就有數據報表和
商業(yè)分析,以前可能沒法說很快產生一個數據報表,而且是用很多很多數據來呈現,可能就很難做到?,F在像ebay要做報表的話,上面領導分析做一個報表,就問他你要用一個月一年不還是幾年呢,說是一年的,那幾小時候給你,如果是一個月的話,我?guī)追昼娋涂梢越o你,用全體數據,出來結果很快,也是大數據幫助我們做到的。第三個層次是所謂的數據科學,數據科學重視的更多是怎么去建模,怎么去預測。我想這就是三個層次,一個是基本的管理,一個是簡單的分析,最后一個是數據科學家。
我們來看一個過程,想象一下,現在有一個購買者來到某寶網站,要購買東西,他在用戶瀏覽器里敲入網址,回車,后面會發(fā)生什么問題呢?哪些事情跟大數據有關呢?這也是我們之前負責搜索科學家招聘的時候喜歡問的一個問題。我們考慮一下,首先用戶打入網址之后,網址就遞交到DNS,DNS會把IP地址反饋給你。大數據時代DNS可能是在不同地方的,會把不同的IP地址反饋出客戶不同的地理位置到數據中心。到了數據中心之后,會把數據做一個分流,這樣做到第一步的分流,把流量分到不同的服務中心。到了服務中心之后,現在用大數據的底層架構,把數據的基本信息和歷史信息都給掏出來,掏出來之后給它產生個性化的首頁。個性化之后,用戶搜索框輸入東西,比如說那樣輸入了幾個數據或者漢字,我們給他一個輸入幫助系統(tǒng),不需要輸入全部,效率就提高了。還有拼寫糾錯系統(tǒng)也一樣,還有查詢理解,猜測用戶意圖進行擴展。比如說前面說了,人家輸入了移動電話,手機也是移動電話,返回里面不光有移動電話商品,還有手機的商品,做了查詢擴展的理解。系統(tǒng)根據這些擴展的查詢,把商品拿回來了,拿回來之后做排序,你要進一步猜測用戶最想要什么東西,他是想要手機,因為他輸入了手機。我要猜測這個用戶喜歡什么樣的手機,你就要根據個性化和商品屬性排序,就用我們前面說過的相關性利用
機器學習的模型做排序,這里面還有個性化或者差評交易預防,它就可以預測說如果這個用戶買了這個商品,最后給差評的科學家有多少?這都有模型,最后放到總的搜索排序的模型下面來用。
頁面一打開,你會發(fā)現搜索框里有相關搜索,還有
商品推薦,右面頁面最流行什么東西,給你顯示出來,還有廣告的顯示,用戶輸入什么,我就顯示什么廣告,這都是個性化。還有相關導購的信息,最后我們有很多導購的文本,我們應該在什么時候應該給用戶?比如說我輸入電冰箱,導購網站,比如說一淘有很多電冰箱相關的內容,你就把這種文本性的東西也可以顯示出來。
這些用黃色字體都是大
數據挖掘代表的,還有用戶點擊商品之后,還有商品情況的獲取,很快,還有
商品推薦。這就是一個簡單的流程。
最后簡單說一下大數據時代的電商趨勢?,F在電商趨勢我認為有很多維,比如說移動化、還有導購化,比如現在一淘也做導購,因為現在網上的商品太多了,沒發(fā)選,所以你要教育用戶,這就是導購化。還有國際化,像ebay我離開之前,做一個項目是要支持國際購買,比如說俄羅斯人購買東西,我不光把俄羅斯的東西返回給你,還要把這些英文翻譯成俄羅斯文返回給你。還有垂直化,現在幾大巨頭壟斷了,我的小的電商怎么生存?或者大電商里面某一個部門怎么提高業(yè)績?這里就有一個垂直化,我們要根據這個領域好好把這個事情做好。在國外有很多做垂直領域的電商,現在其實都做得不錯。我覺得最重要的趨勢都是O2O,因為現在互聯網這么發(fā)達,還有各種各樣的傳感器、智能家居,還有智慧城市等等各種各樣的東西,會導致購物的意向會在隨時隨地出現,并且隨時都能夠滿足,這里面就涉及到O2O。O2O里面就涉及到兩方面,一方面是商品的購買,一方面是服務的購買。服務購買就跟本地生活很向卷,這也是O2O的一部分,最早是做團購,現在更多是做一些服務。O2O里面還有最重要的一部分內容,我猜想是社區(qū)電商。因為社區(qū)是中國最有特色的東西,美國沒有這種社區(qū)。一進一個大門,幾千戶幾萬人住在一個社區(qū)里面。社區(qū)電商,以及社區(qū)電商之外怎么樣去疊加其他業(yè)態(tài)。比如我做了一個社區(qū)服務或者社區(qū)的銷售點,你怎么考慮怎么在線線下的融合。比如說我開了一家店在小區(qū)門口,除了賣東西還可以幫你代交水電費和其他業(yè)務,我覺得社區(qū)電商肯定是很重要的趨勢。我們也在做一個項目,因為你在做O2O的時候,就必然涉及到線上部分和線下的部分。線上部分,我可以隨時知道我線上店的運營情況,你現在就做不到,你離線在線O2O融合,你怎么融合?你怎么在商業(yè)模式上融合,怎么在數據上融合?我做的一個項目可以幫你把離線店做成在線店一樣,你今天來了多少用戶,老年人有多少?懷孕的用戶有多少?我們看了什么?看完這個是不是也喜歡看那個?轉化率多少?進店率多少?等等等等。在線店應該有的東西,離線店也應該有,在這樣基礎之上,我們就可以真正做在線和離線的融合,在業(yè)務上,在數據上都能夠融合。
CDA數據分析師考試相關入口一覽(建議收藏):
? 想報名CDA認證考試,點擊>>>
“CDA報名”
了解CDA考試詳情;
? 想學習CDA考試教材,點擊>>> “CDA教材” 了解CDA考試詳情;
? 想加入CDA考試題庫,點擊>>> “CDA題庫” 了解CDA考試詳情;
? 想了解CDA考試含金量,點擊>>> “CDA含金量” 了解CDA考試詳情;