99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀13個(gè)真實(shí)世界情景中的數(shù)據(jù)科學(xué)應(yīng)用
13個(gè)真實(shí)世界情景中的數(shù)據(jù)科學(xué)應(yīng)用
2017-06-06
收藏

13個(gè)真實(shí)世界情景中的數(shù)據(jù)科學(xué)應(yīng)用

現(xiàn)在讓我們看看13個(gè)在真實(shí)世界情景下的例子,了解現(xiàn)代數(shù)據(jù)科學(xué)家可以幫助我們做些什么。這些例子將有助于你學(xué)習(xí)如何專注于一個(gè)問(wèn)題和如何形式化一個(gè)問(wèn)題,以及如何仔細(xì)評(píng)估所有潛在問(wèn)題——總之,是學(xué)習(xí)數(shù)據(jù)科學(xué)家在提出解決方案之前,如何定位問(wèn)題和進(jìn)行戰(zhàn)略性思考。你也會(huì)看到為什么一些廣泛使用的技術(shù),如標(biāo)準(zhǔn)回歸,可能并不適合所有情況。

數(shù)據(jù)科學(xué)家的思維方式不同于工程師、運(yùn)籌學(xué)專業(yè)人士、計(jì)算機(jī)科學(xué)家。雖然運(yùn)籌學(xué)涉及很多分析,但這一領(lǐng)域的焦點(diǎn)是具體業(yè)務(wù)優(yōu)化層面,如庫(kù)存管理和質(zhì)量控制。運(yùn)籌學(xué)涉及國(guó)防、經(jīng)濟(jì)、工程、軍事等領(lǐng)域。它采用馬爾可夫模型、蒙特卡洛模擬、排隊(duì)論、隨機(jī)過(guò)程,以及(由于歷史原因)Matlab和Informatica工具。

數(shù)據(jù)科學(xué)會(huì)遇到兩種基本類型的問(wèn)題。

1.內(nèi)部數(shù)據(jù)科學(xué)問(wèn)題,如損壞的數(shù)據(jù)、粗心的分析或使用不恰當(dāng)?shù)募夹g(shù)。內(nèi)部問(wèn)題不是針對(duì)業(yè)務(wù)而言,而是針對(duì)數(shù)據(jù)科學(xué)社區(qū)。因此,解決辦法包括訓(xùn)練數(shù)據(jù)科學(xué)家更好地工作,要他們遵循最佳做法。

2.業(yè)務(wù)應(yīng)用問(wèn)題是現(xiàn)實(shí)世界中的問(wèn)題,因此要尋求解決方案,如欺詐檢測(cè),或識(shí)別一個(gè)因素是原因還是結(jié)果。這些可能涉及內(nèi)部或外部(第三方)數(shù)據(jù)。

情景1:國(guó)家對(duì)烈性酒銷售的壟斷結(jié)束后,DUI(酒后駕駛)逮捕量減少

最近發(fā)表在MyNorthWest報(bào)紙上的一篇文章,說(shuō)到一年前在華盛頓州實(shí)施的一條新法律,允許雜貨店銷售烈性酒類。這里的問(wèn)題是如何評(píng)估和解釋在法律生效后,酒后駕車者的逮捕量下降。

作為一個(gè)數(shù)據(jù)科學(xué)家,你首先需要制定一個(gè)可能解釋逮捕量下降的原因列表(通過(guò)與客戶或老板的討論)。然后設(shè)計(jì)一個(gè)方案,排除其中的一些原因,或?yàn)槊總€(gè)原因附上正確的權(quán)重,或簡(jiǎn)化結(jié)論,判定這個(gè)問(wèn)題除非有更多的數(shù)據(jù)或信息可以使用,否則沒(méi)法回答。

以下是15個(gè)可能原因,以及跟酒后駕車逮捕率報(bào)告存在悖論的問(wèn)題。你當(dāng)然可以想出更多的理由。

在數(shù)據(jù)收集過(guò)程中有差錯(cuò)(數(shù)據(jù)是錯(cuò)誤的)。

這篇文章的作者,可能與別人有利益沖突、想推銷特定的觀點(diǎn),或是出于政治動(dòng)機(jī)。也許只是一個(gè)大膽的謊言。

之所以酒后駕駛被逮捕的人數(shù)變少,也許是因?yàn)榫斓娜耸稚倭恕?

在這一時(shí)期內(nèi),其他犯罪率也有所下降,這是犯罪率總體下降趨勢(shì)的一部分。若沒(méi)有這條新法律,酒后駕駛的逮捕量會(huì)不會(huì)下降更多?

缺乏統(tǒng)計(jì)顯著性。

存在其他更為嚴(yán)厲的刑罰,阻止了酒后駕車行為。

年紀(jì)大的酒客多,因?yàn)樗麄円呀?jīng)肇事死亡,所以逮捕量下降。

總?cè)丝谠黾?,但喝酒的人?shù)減少,因?yàn)橐泼衤矢叩氖侵袊?guó)人和印度人,但他們中喝酒的人數(shù)比例遠(yuǎn)遠(yuǎn)低于其他人口群體。

酒后駕車逮捕量統(tǒng)計(jì)口徑是針對(duì)華盛頓居民,還是非居民的?

這一法律沒(méi)有效果,在此之前,人們也可以從華盛頓的雜貨店買酒(除了烈性酒)。

(可能是因?yàn)樵黾恿硕愂?,酒價(jià)升高,導(dǎo)致酒精消費(fèi)減少(盡管酒精和煙草消費(fèi)對(duì)價(jià)格彈性變化有抵抗力)。

人們現(xiàn)在開車到更近的地方就能買到烈性酒,因此,喝烈性酒駕駛而被逮捕的人變少了。

所有酒后駕駛逮捕量都下降,還是僅僅喝烈性酒的酒后駕駛逮捕量下降才如此?

一般來(lái)說(shuō),如果人們開車次數(shù)減少了,無(wú)論對(duì)飲酒者還是非飲酒者來(lái)說(shuō),那么可能的原因就是汽油價(jià)格上漲了。

要評(píng)估這個(gè)新法律的影響,有一個(gè)更好的指標(biāo)是華盛頓居民的酒類(特別是烈性酒)的總消費(fèi)量。

數(shù)據(jù)科學(xué)家必須選擇正確的方法來(lái)評(píng)估新法律的影響,并想出如何獲得評(píng)估所需數(shù)據(jù)的方法。實(shí)際上,逮捕量減少的真正原因是,喝烈性酒者可以開車在很短的距離內(nèi)就能買到烈性酒。對(duì)華盛頓州來(lái)說(shuō),問(wèn)題在于判斷該法律能否減少因酒精消費(fèi)而產(chǎn)生的社會(huì)問(wèn)題代價(jià)(是否會(huì)增加酒精銷售的稅收、裁減州內(nèi)商店的員工,使酒精相關(guān)的犯罪率維持適度水平或完全消失等)。

情景2:數(shù)據(jù)科學(xué)與直覺(jué)

在管理層圈子里,許多決定仍然依靠直覺(jué)。然而,正如這個(gè)例子所示,數(shù)據(jù)科學(xué)和統(tǒng)計(jì)分析結(jié)果優(yōu)于直覺(jué),讓你不至于憑直覺(jué)而形成錯(cuò)誤的結(jié)論。

雙數(shù)據(jù)點(diǎn)是指幾乎相同的觀測(cè)值。在許多不同類型的數(shù)據(jù)集中,這種情況經(jīng)常出現(xiàn),而非特例。在任何有300多行數(shù)據(jù)的二維或三維的數(shù)據(jù)集中,如果數(shù)據(jù)是定量的,并均勻地分布在一個(gè)有界空間中,你應(yīng)該會(huì)看到大比例(大于 15%)的數(shù)據(jù)點(diǎn)都有一個(gè)近鄰。

這適用于所有數(shù)據(jù)集,但這一發(fā)現(xiàn)首先是從星系照片里發(fā)現(xiàn)的。星系照片里有很多雙星,你可能會(huì)直覺(jué)地認(rèn)為,有一些內(nèi)在原因使得星星成對(duì)地聚集在一起。但是,如果你知道純概率,你會(huì)發(fā)現(xiàn),即使沒(méi)有任何外部機(jī)制推動(dòng),15%的星星也會(huì)屬于雙星系統(tǒng)。

例如,我們可以考慮一個(gè)包含500顆星星的星系。計(jì)算這些星星構(gòu)成雙星系統(tǒng)的純概率,結(jié)果如下。

至少有60顆(12%)星星屬于雙星系統(tǒng)的概率為85%。

至少有80顆(16%)星星屬于雙星系統(tǒng)的概率為18%。

至少有100顆(20%)星星屬于雙星系統(tǒng)的概率(幾乎)為0%。

然而,在現(xiàn)實(shí)中,超過(guò)80%的星星都屬于雙星系統(tǒng)。概率統(tǒng)計(jì)不支持這個(gè)數(shù)字;因此,很明顯有一些機(jī)制使得星星成對(duì)聚集。

該問(wèn)題提供了一個(gè)很好的、可以測(cè)試你分析直覺(jué)的機(jī)會(huì)??纯磮D表里的雙生觀測(cè)值,然后目測(cè)評(píng)估下雙生觀測(cè)值是自然的(隨機(jī))還是非自然的(數(shù)量太多或太少)??梢詫懸欢未a當(dāng)作練習(xí)(Python、Perl、R代碼),進(jìn)行模擬(包括更復(fù)雜的三維情況),檢查下理論結(jié)果,并比較一下R、Perl、Python的速度差異。

技術(shù)講義

假設(shè),有一張10cm×10cm的夜空?qǐng)D,其有大約n=500個(gè)可見的星星(數(shù)據(jù)點(diǎn)),而雙星定義是一顆星星和鄰近的星星距離是1mm(或更短)。如果恒星是完美隨機(jī)分布的,則500顆恒星中,位于雙星系統(tǒng)中的星星數(shù)量將是73顆(平均而言)。這個(gè)數(shù)字遠(yuǎn)遠(yuǎn)高于大多數(shù)人所認(rèn)為的數(shù)字。這一比例可以表示為p,因此p=14.5%,在500顆恒星中,預(yù)計(jì)位于雙星系統(tǒng)中的星星數(shù)量為n*p=73。

在這種情況下,可以用Poisson過(guò)程的理論來(lái)計(jì)算該概率。如果500個(gè)點(diǎn)分布在一個(gè)100mm×100mm的區(qū)域(一個(gè)放大的夜空?qǐng)D),則Poisson過(guò)程的強(qiáng)度L是每平方毫米面積內(nèi)點(diǎn)的數(shù)量,即L=500/(100mm×100mm)=0.05/mm2。

在1 mm距離之內(nèi)一顆星星至少有一個(gè)鄰近點(diǎn)的概率p為1-Proba(0個(gè)鄰近點(diǎn))=1-exp(-L*Pi*r2),其中r=1mm,Pi=3.14。這里Pi*r2是一個(gè)半徑為1mm的圓的面積。指數(shù)項(xiàng)是一個(gè)Poisson過(guò)程,在一個(gè)給定的集合里(圓、矩形等),點(diǎn)的數(shù)目有一個(gè)均值為L(zhǎng)*Area的Poisson分布。因此p=0.145。

所以是否屬于雙星,是一個(gè)參數(shù)p=0.145的伯努利(1/0)變量。V可以表示位于雙星系統(tǒng)中的星星數(shù)目:V是參數(shù)p的n個(gè)伯努利變量的總和,因而是參數(shù)為n、p的二項(xiàng)式分布,而normal(0,1)分布跟標(biāo)準(zhǔn)化變量Z=(V-np)/SQRT{np(1-p)}的值非常近似。這個(gè)事實(shí)可以用來(lái)計(jì)算前面所說(shuō)的概率。

替代計(jì)算:使用蒙特卡洛模擬,而不是使用理論模型,來(lái)計(jì)算這些概率,也可以得到相同的結(jié)果。這將涉及生成100萬(wàn)個(gè)模擬圖像(二維數(shù)據(jù)表),并在每個(gè)模擬圖像里,計(jì)算屬于雙星系統(tǒng)的星星數(shù)目。使用現(xiàn)代計(jì)算機(jī)、良好的隨機(jī)數(shù)生成器和智能算法,這項(xiàng)任務(wù)可以在幾分鐘內(nèi)自動(dòng)化進(jìn)行。

如果你使用樸素的做法,則該模擬過(guò)程可能是緩慢的。但計(jì)算n個(gè)距離,找最近的星星時(shí),計(jì)算復(fù)雜度可以做得比O(n2)好得多。具體做法是將數(shù)據(jù)存儲(chǔ)在一個(gè)間隔為1mm的網(wǎng)格中(即,一個(gè)有100′100=10 000個(gè)單元格的二維數(shù)組)。因此,對(duì)于每一顆星星,你只需查看周圍的8個(gè)像素,來(lái)計(jì)算不到1mm距離的鄰近點(diǎn)的數(shù)目。通過(guò)使用1萬(wàn)個(gè)1比特(代表存在/不存在)存儲(chǔ)單元,可以把O(n2)的復(fù)雜度降低到O(n)。

請(qǐng)注意,選100萬(wàn)或1萬(wàn)是隨意的,實(shí)際只需足夠大的數(shù)字,保證所估計(jì)的結(jié)果足夠穩(wěn)定即可,數(shù)字若再大則不會(huì)帶來(lái)更準(zhǔn)確的結(jié)果。選擇合適的樣本和樣本大小是一個(gè)實(shí)驗(yàn)設(shè)計(jì)問(wèn)題,并且使用無(wú)模型的置信區(qū)間有利于這項(xiàng)任務(wù)的開展,也保證結(jié)果穩(wěn)健。這種蒙特卡洛模擬方法較受運(yùn)籌學(xué)專業(yè)人士的青睞,一些數(shù)據(jù)科學(xué)家、計(jì)算機(jī)科學(xué)家、喜歡無(wú)模型統(tǒng)計(jì)建模的軟件工程師們也較鐘愛。然而,在這個(gè)案例里,理論模型眾所周知,也很簡(jiǎn)單(即使不是很基礎(chǔ)),也能快速而簡(jiǎn)捷地得到答案。所以,除非你必須花很多時(shí)間才能理解它的原理,否則還是建議尋找理論解決方案。

附加說(shuō)明:在這個(gè)例子中,星星顯示在二維屏幕上。在現(xiàn)實(shí)中,它們存在于三維空間中。從X坐標(biāo)和Y坐標(biāo)來(lái)看兩顆星星可能是鄰近的,但在Z軸上它們可能是永久分開的。所以要計(jì)算出雙星的真實(shí)比例期望值,你就得模擬三維空間里的星星(點(diǎn)),投影到矩形內(nèi)計(jì)算出雙星的比例。在這種情況下,我不確定該理論模型是否是簡(jiǎn)單的解決方案,但蒙特卡洛模擬仍然是簡(jiǎn)單的。在實(shí)踐中,實(shí)際上遙遠(yuǎn)的恒星不夠明亮而不能顯示在圖片上,所以二維模型確實(shí)是對(duì)真實(shí)的三維問(wèn)題很好的近似。

此外,在理論模型中,關(guān)于星星的位置有一些隱含的獨(dú)立性的假設(shè)(當(dāng)提到二項(xiàng)式模型時(shí)),但這不是實(shí)際情況,因?yàn)樾切侵車?mm直徑范圍內(nèi)有時(shí)會(huì)重疊。但這種近似依然不錯(cuò),并且是保守估計(jì)的。而理論上的數(shù)字,如果排除重疊,肯定要高于73。

情景3:數(shù)據(jù)故障將數(shù)據(jù)變成亂碼

在數(shù)據(jù)導(dǎo)入或?qū)С龅倪^(guò)程中,有許多出差錯(cuò)的例子。這通常是架構(gòu)較差的結(jié)果,或者使用了錯(cuò)誤的工具,或者盲目依賴工具而不進(jìn)行數(shù)據(jù)質(zhì)量檢查的原因。數(shù)據(jù)科學(xué)家如何檢測(cè)和解決這個(gè)問(wèn)題?

Microsoft Access有時(shí)不能正確導(dǎo)入或?qū)С鰯?shù)據(jù)類型,使數(shù)據(jù)庫(kù)表自動(dòng)甚至是強(qiáng)迫類型轉(zhuǎn)換,輸出文本或CSV文件(或其他格式),結(jié)果較差,容易導(dǎo)致許多錯(cuò)誤。這種情況發(fā)生,是因?yàn)榄h(huán)境不夠靈活,從而不能進(jìn)行智能的類型檢測(cè)并進(jìn)行類型轉(zhuǎn)換。例如,你是否處理過(guò)以下情況,一行日期數(shù)據(jù)被記錄為整數(shù),另一行卻被記錄為mmddyy格式(月、日、年格式,比如2016年10月5日記為100516)?或者是你不得不處理數(shù)據(jù)字段值內(nèi)的逗號(hào),因?yàn)檫@會(huì)搞砸你的CSV文件?

我收到過(guò)許多數(shù)據(jù)文件,損壞率達(dá)到5%以上。有時(shí)兩種不同類型的值(廣告主關(guān)鍵詞與用戶查詢,或來(lái)源域名與廣告網(wǎng)絡(luò)域名)存儲(chǔ)在同一字段中。有時(shí)字段沒(méi)有正確對(duì)齊。有時(shí)看起來(lái)制作數(shù)據(jù)的人不是使用正則表達(dá)式的專家,或是總是錯(cuò)誤地使用分隔符。有時(shí)則是因?yàn)檐浖咽虑楦阍懔恕?

有時(shí)這些差錯(cuò)有不良的副作用,比如你的數(shù)據(jù)庫(kù)里有一個(gè)非真實(shí)的用戶ID,成為所有沒(méi)有ID的用戶的垃圾收集器,導(dǎo)致分析數(shù)據(jù)時(shí)有缺陷。但在其他時(shí)候不是個(gè)大問(wèn)題。

以下幾個(gè)例子是講混亂的數(shù)據(jù)、混亂的格式和不完整的數(shù)據(jù)整合如何導(dǎo)致嚴(yán)重的錯(cuò)誤,以及如何解決這些問(wèn)題。

Wells Fargo(美國(guó)富國(guó)銀行):IBM Tealeaf用戶的會(huì)話被分解成多個(gè)會(huì)話,因?yàn)槊總€(gè)服務(wù)器都有自己的網(wǎng)絡(luò)日志,而這些日志并沒(méi)有被正確混合。這種情況下主要是架構(gòu)設(shè)計(jì)造成的問(wèn)題。幸運(yùn)的是,發(fā)現(xiàn)和解決這個(gè)問(wèn)題能幫助我們形成對(duì)該類問(wèn)題的洞察力。

eBay(易貝):數(shù)據(jù)傳輸過(guò)程中把法語(yǔ)和德語(yǔ)關(guān)鍵詞的特殊字符刪除了,造成了數(shù)據(jù)不一致性。通過(guò)建立臨時(shí)的外鍵查找表,讓正確的和錯(cuò)誤的拼寫對(duì)應(yīng),從而可以解決數(shù)據(jù)不一致的問(wèn)題。

點(diǎn)擊欺詐檢測(cè):關(guān)鍵詞字段有時(shí)代表用戶查詢(如谷歌查詢),有時(shí)是一個(gè)預(yù)先指定的關(guān)鍵詞類別,這取決于廣告網(wǎng)絡(luò)聯(lián)盟公司的種類。如果相關(guān)公司的關(guān)鍵詞是屬于關(guān)鍵詞類別的,我們會(huì)施加一個(gè)較大的錯(cuò)誤懲罰值,這是因?yàn)?出于設(shè)計(jì)而非欺詐的原因)這種關(guān)鍵詞的分布很差。添加一個(gè)指定關(guān)鍵詞類型的新字段,能夠解決該類問(wèn)題。

作為練習(xí),我希望你多想想這些類型的問(wèn)題,并回答以下問(wèn)題。以下問(wèn)題都是常見的、有趣的工作面試問(wèn)題。

你如何處理這些問(wèn)題?

如何自動(dòng)檢測(cè)這些差錯(cuò)?該問(wèn)題是質(zhì)量保證(QA)問(wèn)題嗎?

在大數(shù)據(jù)情景下這類問(wèn)題是變得更糟了嗎?檢測(cè)問(wèn)題和解決問(wèn)題,哪個(gè)比較困難?

能夠容許多少壞數(shù)據(jù)?能否容許1%的錯(cuò)誤?欺詐檢測(cè)的話能容許的錯(cuò)誤甚至更少嗎?

解決這些問(wèn)題,你花費(fèi)了多長(zhǎng)時(shí)間?

如何設(shè)計(jì)智能的類型轉(zhuǎn)換?

情景4:異??臻g的回歸

這個(gè)例子說(shuō)明了在使用傳統(tǒng)技術(shù)解決新問(wèn)題之前,需要改進(jìn)原有技術(shù),如回歸。這些技術(shù)有些已經(jīng)超過(guò)了100年,是統(tǒng)計(jì)分析領(lǐng)域的主要工具。針對(duì)小的數(shù)據(jù)集,已經(jīng)有簡(jiǎn)單的數(shù)學(xué)方案能解決問(wèn)題。隨著大數(shù)據(jù)和大規(guī)模并行計(jì)算能力的出現(xiàn),情況已經(jīng)不同。

比如,你想通過(guò)逆向工程得到可口可樂(lè)的配方?;谠S多人的品嘗結(jié)果(根據(jù)實(shí)驗(yàn)設(shè)計(jì)),響應(yīng)值Y衡量你的配方跟可口可樂(lè)真正配方的接近程度。事實(shí)上,這非常類似于在臨床試驗(yàn)中,通過(guò)測(cè)試混合的原子或化學(xué)基(每個(gè)組合產(chǎn)生一個(gè)獨(dú)特的分子)來(lái)改善藥物效果。而自變量是二進(jìn)制值,每一個(gè)代表一個(gè)成分,如鹽、水、玉米糖漿等。如果所討論的成分在配方中是存在的,則該值等于1,否則等于0。這與標(biāo)準(zhǔn)的線性或邏輯回歸有很大的差異。

技術(shù)講義

回歸系數(shù)a_k (k = 1,…,m) 必須滿足以下要求。

每個(gè)k都是正數(shù)(a_k大于或等于0)。

這些系數(shù)的總和等于1。

總之,你在單純形空間進(jìn)行回歸,其中a_k代表混合的比例。這種回歸有一個(gè)有趣的特性,a_k系數(shù)的平方和等于由SUM(a_k)=1定義的m-1面體面積的平方,且a_k大于或等于0。(這是畢達(dá)哥拉斯定理的一個(gè)泛化。)這有點(diǎn)像一個(gè)套索回歸、嶺回歸或邏輯(是logic而不是logistic)回歸,但放在貝葉斯框架里,也可以利用馬爾可夫蒙特卡洛(MCMC)來(lái)解決。

如何解決在一個(gè)球面上的回歸?例如:

根據(jù)鳥的視線,找出加拿大大雁的遷徙飛行路徑。

針對(duì)一顆在行星上撞擊出多個(gè)排一起的隕石坑的流星,計(jì)算其軌跡和起源。

基于火山的位置探測(cè)地質(zhì)斷層(兩者幾乎是一一對(duì)應(yīng)的,比如在喀斯喀特山脈內(nèi),或在大西洋中部的海底)。

答案是通過(guò)將球面映射到平面上,通過(guò)平面回歸來(lái)解決問(wèn)題。

在這個(gè)例子中,目的是創(chuàng)造一個(gè)競(jìng)爭(zhēng)產(chǎn)品,口味和可口可樂(lè)一樣,用不同的名字稱呼它,并以更低的價(jià)錢銷售。如果味道是相同的,但成分是不同的,那么可口可樂(lè)制造商若起訴你復(fù)制他們的配方是沒(méi)法勝訴的。我認(rèn)為,Virgin(維京)幾乎克隆出來(lái)了這個(gè)味道。當(dāng)然,百事可樂(lè)并不相近:味道是那么不同,二者就像蘋果和橘子的差別。

最后說(shuō)回來(lái),有許多不同的方法來(lái)解決回歸問(wèn)題(或任何數(shù)據(jù)科學(xué)問(wèn)題。如果你使用正確的參數(shù),則不同解決方案在效率方面往往是等效的。例如,你可以用純優(yōu)化或純數(shù)學(xué)解決這個(gè)問(wèn)題。統(tǒng)計(jì)學(xué)家會(huì)認(rèn)為,使用這種方法不能為回歸參數(shù)建立置信區(qū)間,或沒(méi)法測(cè)試是否有一些參數(shù)等于0。作為替代,我自己設(shè)計(jì)了一個(gè)無(wú)須統(tǒng)計(jì)模型就可以計(jì)算置信區(qū)間的方法。這個(gè)方法被稱為分析橋(Analyticbridge)第一定理,將在這本書更多技術(shù)化的章節(jié)里得到描述。

情景5:分析與誘導(dǎo)在提升銷量上有何不同價(jià)值

這個(gè)例子說(shuō)明即使是最好的分析,如果你忽略了其他關(guān)鍵的、使業(yè)務(wù)成功的要素,也不會(huì)很有用??傊瑢?duì)于所有業(yè)務(wù)問(wèn)題,分析并不是萬(wàn)能的。

這個(gè)情景的背景是提高轉(zhuǎn)化率,如將網(wǎng)站訪問(wèn)者轉(zhuǎn)化為活躍用戶,或者是將被動(dòng)的簡(jiǎn)報(bào)訂閱者轉(zhuǎn)化為業(yè)務(wù)意向(打開簡(jiǎn)報(bào)和點(diǎn)擊鏈接即代表意向)。在此我們討論簡(jiǎn)報(bào)的轉(zhuǎn)化問(wèn)題,雖然這個(gè)例子可以適用于許多不同的環(huán)境。

為了最大限度地提高總的意向數(shù)量,你需要使用誘導(dǎo)手段和分析手段。銷售量是一個(gè)與下列影響因子密切相關(guān)的函數(shù)。

誘導(dǎo)

分析

產(chǎn)品

價(jià)格

競(jìng)爭(zhēng)

聲譽(yù)

市場(chǎng)營(yíng)銷

首先,即使是度量“誘導(dǎo)”或“分析”也是很困難的。但是你可以用一個(gè)0~10的級(jí)別(10表示最好的),誘導(dǎo)值=9代表公司在使用誘導(dǎo)方法上非常努力,而分析值=0代表公司完全忽視分析手段。

在優(yōu)化簡(jiǎn)報(bào)郵件方面(從而最大限度地提升意向的數(shù)量和規(guī)模),大多數(shù)公司把誘導(dǎo)設(shè)置為1,把分析設(shè)置為4或5。通常是通過(guò)多變量測(cè)試、數(shù)學(xué)分割、用戶群定向進(jìn)行分析的。這種方法來(lái)源于營(yíng)銷人員所受的訓(xùn)練——但是,這不是最好的方法?,F(xiàn)在,ISP(互聯(lián)網(wǎng)服務(wù)提供商)提供的用戶細(xì)分,比傳統(tǒng)的用戶分組技術(shù)更關(guān)鍵。未能送達(dá)給Gmail用戶,比起分組不當(dāng)送達(dá)給不恰當(dāng)?shù)腉mail用戶,后者更糟糕(例如,年輕用戶和年老用戶雖然收到不同的信息,但是這些信息并不是有針對(duì)性發(fā)送的)。

另一個(gè)關(guān)鍵的錯(cuò)誤是在郵件主題上,重復(fù)使用相同的關(guān)鍵詞,剛開始這樣可能有效,但最終會(huì)使你的用戶厭煩而不想讀你的簡(jiǎn)報(bào)(除非你已經(jīng)找到彌補(bǔ)用戶流失的方法,比如說(shuō)雇用增長(zhǎng)極客來(lái)幫助你解決問(wèn)題)。如果你的競(jìng)爭(zhēng)對(duì)手也使用完全相同的關(guān)鍵詞,這個(gè)問(wèn)題就更加復(fù)雜了。

豐富多樣的、非炒作性的關(guān)鍵詞對(duì)于分析型、高學(xué)歷、厭惡垃圾郵件的用戶來(lái)說(shuō)非常有效果。例如,一個(gè)主題行,如Weekly digest, July 29(digest用小寫字母d)比25 Fantastic Articles From Top Big Data Gurus(From用大寫字母F)的效果更好。當(dāng)然,后者可能在前兩次效果很好,但最終還是無(wú)效的。此外,你的簡(jiǎn)報(bào)內(nèi)容必須與主題行緊密相關(guān),否則你失去用戶的速度會(huì)比你獲得新用戶的速度快。

相反地,你可以基于誘導(dǎo)而不是分析手段,即,猜測(cè)用戶現(xiàn)在喜歡什么內(nèi)容,而不是根據(jù)歷史的效果數(shù)據(jù)來(lái)設(shè)計(jì)內(nèi)容。它也可以自動(dòng)化完成,并轉(zhuǎn)化為分析規(guī)則——例如,檢測(cè)一個(gè)關(guān)鍵熱詞奏效的次數(shù),例如“肚皮舞分析”這一有效關(guān)鍵詞可以持續(xù)多久,等等。過(guò)度使用通過(guò)分析找到的技巧,最終會(huì)使得誘導(dǎo)手段沒(méi)有存在空間,也會(huì)拉低銷售。但現(xiàn)在,似乎很多網(wǎng)絡(luò)營(yíng)銷者忽視了這些規(guī)則。誘導(dǎo)比分析提供一個(gè)更大的杠桿效應(yīng)(雖然它們應(yīng)該混合在一起),特別是長(zhǎng)期業(yè)務(wù)。

情景6:關(guān)于隱藏?cái)?shù)據(jù)

在該情景下,你的數(shù)據(jù)就像Gruyere奶酪一樣。它有很多、很大的孔。有時(shí)候,空白的空間占據(jù)著比數(shù)據(jù)本身更大的容積,就像在宇宙中暗物質(zhì)比可見物質(zhì)更豐富一樣。這個(gè)情景不是關(guān)于淺層的或稀疏的數(shù)據(jù),而是關(guān)于你看不到的數(shù)據(jù),你甚至不知道它們的存在,但它們比你的數(shù)據(jù)倉(cāng)庫(kù)里的任何東西,都有更好的可操作價(jià)值。

以下是“Gruyere數(shù)據(jù)”的3種情況,以及每一種情況的補(bǔ)救方法。

1丟失的或不完整的數(shù)據(jù)

這是最容易解決的問(wèn)題。任何有才華的數(shù)據(jù)科學(xué)家都可以使用現(xiàn)代的、無(wú)偏的數(shù)據(jù)補(bǔ)齊技術(shù),來(lái)解決這個(gè)問(wèn)題。大多數(shù)分析軟件也包括處理丟失數(shù)據(jù)的機(jī)制。

2經(jīng)過(guò)刪改的數(shù)據(jù)

所謂刪改,我的意思是從統(tǒng)計(jì)學(xué)角度看的。下面是一個(gè)例子:我們要估計(jì)所有至少涉及一次犯罪的槍支比例。我們使用的數(shù)據(jù)集(槍或犯罪統(tǒng)計(jì))已經(jīng)被刪改了,比如品牌的新槍今天并沒(méi)有用來(lái)殺人而沒(méi)被統(tǒng)計(jì)在內(nèi),但可能下個(gè)星期就被用來(lái)射殺某人。此外,一些罪犯丟棄了他們的槍,在案發(fā)后可能追蹤不到該槍支。

你如何處理這個(gè)問(wèn)題?任何有才華的數(shù)據(jù)科學(xué)家都能輕松使用正確的統(tǒng)計(jì)技術(shù)處理這個(gè)問(wèn)題,使用統(tǒng)計(jì)分布(通常是指數(shù)的)來(lái)衡量犯罪時(shí)間,并基于刪改數(shù)據(jù)估計(jì)其平均值。這樣問(wèn)題就解決了。

3隱藏?cái)?shù)據(jù)

處理隱藏?cái)?shù)據(jù)是一個(gè)大問(wèn)題。首先,你甚至不知道它的存在,因?yàn)樗强床灰姷?,至少?gòu)哪愕慕嵌葋?lái)說(shuō)是看不見的。領(lǐng)域?qū)I(yè)知識(shí)和統(tǒng)計(jì)學(xué)知識(shí)(更多技術(shù)知識(shí)的經(jīng)驗(yàn)法則),會(huì)幫助你意識(shí)到潛在的隱藏?cái)?shù)據(jù)。事實(shí)上,數(shù)據(jù)可能根本就不存在,在這種情況下,首先你必須組裝數(shù)據(jù)。

思考這樣一個(gè)例子:假設(shè)Target公司在試圖優(yōu)化它的收入數(shù)字。它分析了銷售數(shù)據(jù),看看與花園相關(guān)的物品什么時(shí)候銷售量最好。該公司總部在明尼蘇達(dá)州,2月份沒(méi)有任何關(guān)于花園物品的銷售數(shù)據(jù),任何人提出這樣的分析做法可能被當(dāng)場(chǎng)解雇,或被懷疑是不是吃錯(cuò)藥。然而,在加州,2月份Target的競(jìng)爭(zhēng)對(duì)手們的花園物品銷售量不錯(cuò),一直到6月份都沒(méi)有留給Target什么市場(chǎng)份額。Target不知道原因,錯(cuò)誤地認(rèn)為在加州花園物品這塊沒(méi)錢可賺。

你如何處理該問(wèn)題?即使Target可能缺乏2月份的花園物品銷售數(shù)據(jù),但可以查看競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)(例如,瀏覽和分析每天發(fā)送的數(shù)百萬(wàn)封垃圾郵件),這是正確方向上良好的第一步。但真正的解決方案是雇用一位有遠(yuǎn)見的數(shù)據(jù)科學(xué)家。有才華的數(shù)據(jù)科學(xué)家利用每個(gè)人都能看到的數(shù)據(jù);有遠(yuǎn)見的數(shù)據(jù)科學(xué)家利用沒(méi)人看到的數(shù)據(jù)。

情景7:汽油中的鉛會(huì)導(dǎo)致高犯罪率。真的嗎

這種典型的分析和觀點(diǎn)可能在受尊敬的新聞媒體上出現(xiàn)過(guò),然而這種分析不足以支持作者的觀點(diǎn)。根據(jù)Rick Nevin的計(jì)量經(jīng)濟(jì)學(xué)的研究,禁用含鉛汽油約20年后,(汽油使用量高的)大城市的犯罪率達(dá)到高峰。20年的滯后是嬰兒受鉛影響到成為20歲罪犯所經(jīng)歷的時(shí)間。至少這是一些著名的計(jì)量經(jīng)濟(jì)學(xué)家基于過(guò)去大城市歷年犯罪率的分析而提出的論點(diǎn)。但這又是一個(gè)缺乏適當(dāng)?shù)膶?shí)驗(yàn)設(shè)計(jì)的例子。

那么,如何設(shè)計(jì)一個(gè)更好的研究呢?我們可以得到過(guò)去30年間所有特定規(guī)模的城市1萬(wàn)人的均衡樣本,樣本分成兩個(gè)子集(罪犯和非罪犯),并檢查(使用比率)罪犯是否比非罪犯在出生時(shí)更容易受鉛影響??傊?,要跟之前的研究相反,要針對(duì)個(gè)體而不是城市——也就是看微觀層面,而不是宏觀層面——并進(jìn)行經(jīng)典的假設(shè)檢驗(yàn),使用標(biāo)準(zhǔn)抽樣和適當(dāng)?shù)膶?shí)驗(yàn)程序設(shè)計(jì)。

或者,如果你真的想研究原有的宏觀時(shí)間序列(假設(shè)數(shù)據(jù)粒度細(xì)到每月),那可以進(jìn)行Granger因果關(guān)系檢驗(yàn),這樣會(huì)考慮原始時(shí)間序列轉(zhuǎn)為白噪聲后的所有互相關(guān)系的殘差(類似于時(shí)間序列的頻譜分析或相關(guān)圖分析)。然而,如果你有幾千個(gè)指標(biāo)(因此會(huì)有幾千個(gè)時(shí)間序列和幾百萬(wàn)個(gè)相關(guān)性),你最終會(huì)發(fā)現(xiàn)非常高的相關(guān)性純屬意外。這被稱為大數(shù)據(jù)的“詛咒”,在第2章中會(huì)對(duì)此詳細(xì)描述。

相關(guān)性不是因果關(guān)系。不要輕易聲稱是因果關(guān)系,除非你能證明它。很多時(shí)候,多個(gè)相互依賴的因素會(huì)對(duì)同一問(wèn)題產(chǎn)生影響。當(dāng)嬰兒潮一代(不太守法的一代)20歲時(shí),也許正是犯罪發(fā)生高峰期。這可能是一個(gè)更可信的原因。

情景8:波音787(夢(mèng)幻客機(jī))問(wèn)題

波音公司的夢(mèng)幻客機(jī)推出幾個(gè)月后不久,由于其電池相關(guān)問(wèn)題,被FAA(聯(lián)邦航空局)禁飛。主要的問(wèn)題是其使用了從未在飛機(jī)上使用過(guò)的一種新型鋰電池。這種強(qiáng)大的電池容易過(guò)熱和著火,導(dǎo)致短時(shí)間內(nèi)多次緊急著陸。

根本原因是設(shè)計(jì)電池的供應(yīng)商缺少良好的實(shí)驗(yàn)設(shè)計(jì)。這是一個(gè)質(zhì)量控制問(wèn)題,而質(zhì)量控制在很大程度上依賴于分析。以下的一些提問(wèn)證明了更好的質(zhì)量控制和實(shí)驗(yàn)設(shè)計(jì)可以解決電池問(wèn)題。

這些電池(就像其他很多可以購(gòu)買到的產(chǎn)品的電池,如汽車或筆記本電腦的電池)難道不能經(jīng)過(guò)深入的質(zhì)量控制檢測(cè),采用健全的統(tǒng)計(jì)技術(shù),確保電池次品率或生命周期內(nèi)產(chǎn)品的失敗風(fēng)險(xiǎn)低于可接受的閾值嗎?

會(huì)不會(huì)是質(zhì)量控制測(cè)試沒(méi)有根據(jù)最佳實(shí)踐進(jìn)行?

過(guò)熱模擬能代表現(xiàn)實(shí)世界飛機(jī)起飛時(shí)的情況嗎?

“壓力”測(cè)試電池的時(shí)間夠不夠長(zhǎng)?

是不是日本的質(zhì)量控制標(biāo)準(zhǔn)更低?因?yàn)檫@些電池的設(shè)計(jì)和生產(chǎn)是在日本進(jìn)行的。

這些電池的可靠性統(tǒng)計(jì)報(bào)告是錯(cuò)誤的嗎?

一種可能的解決方案是使用更好的機(jī)制來(lái)冷卻這種類型的電池,但在飛機(jī)上從來(lái)沒(méi)有使用過(guò)這種方法,不過(guò),過(guò)去手機(jī)就因?yàn)檫^(guò)熱而發(fā)生過(guò)火災(zāi),所以現(xiàn)在所有手機(jī)中都使用冷卻手段。與手機(jī)或筆記本電腦不同的是,在一架飛機(jī)上,因?yàn)橥饨鐪囟冗h(yuǎn)低于冰點(diǎn),所以很容易冷卻(甚至是冷凍)。

情景9:NLP的7個(gè)棘手句子

NLP是指自然語(yǔ)言處理。當(dāng)數(shù)據(jù)科學(xué)家分析非結(jié)構(gòu)化的數(shù)據(jù)時(shí),如原始(未分類)文本,將會(huì)面臨這類問(wèn)題,所以我們?cè)诖藢?duì)該類問(wèn)題進(jìn)行說(shuō)明。這類分析叫作文本挖掘。

以下7種類型的語(yǔ)言模式,很難用自動(dòng)化算法進(jìn)行分析。

“A land of milk and honey”變成“A land of Milken Honey” (這是針對(duì) The Wall Street Journal 20世紀(jì)80年代以來(lái)的語(yǔ)料訓(xùn)練而形成的算法,該語(yǔ)料里Michael Milken 提到的次數(shù)比 milk 多)。

“She threw up her dinner”與“She threw up her hands”對(duì)比。

“I ate a tomato with salt”與“I ate a tomato with my mother”或“I ate a tomato with a fork”對(duì)比。

以“ing”結(jié)尾的單詞——例如,“They were entertaining people”。

“He washed and dried the dishes”與“He drank and smoked cigars”對(duì)比(在后面的情況下,他沒(méi)有“喝”香煙)。

“The lamb was ready to eat”與“Was the lamb hungry and wanting some grass?”對(duì)比。

具有多重含義的詞,如“bay”,可能是一種顏色,或者窗戶類型,或者海灣。

在這些例子中,或者在情感分析中,數(shù)據(jù)科學(xué)家試圖猜測(cè)用戶意圖,以便正確地解讀數(shù)據(jù),得到正確的答案或決策。例如,這可能會(huì)在以下情況中發(fā)生。

在分析谷歌搜索數(shù)據(jù)時(shí),根據(jù)用戶查詢應(yīng)該顯示哪些相關(guān)廣告?

對(duì)于發(fā)布在 Facebook 網(wǎng)頁(yè)上關(guān)于產(chǎn)品或公司的評(píng)論,如何分析評(píng)估它們是正面的還是負(fù)面的?

在分析 Facebook 的帖子時(shí),如何判定一個(gè)帖子是不是因?yàn)檫`反了 Facebook 的政策或法律而應(yīng)該被自動(dòng)刪除?

用戶畫像(如果可用)指標(biāo),或網(wǎng)頁(yè)和電子郵件內(nèi)容(特別是如果網(wǎng)頁(yè)已經(jīng)分類了),可以幫助解決歧義。

情景10:數(shù)據(jù)科學(xué)家決定著我們所吃的食品

影響美國(guó)人吃什么的因素有很多,但最大的因素是食品雜貨店的利潤(rùn)率。這解釋了為什么我們買不到紅醋栗或百香果,但可以買到高能量飲料和富含糖分的食物。當(dāng)然,這有一個(gè)反饋循環(huán):美國(guó)人喜歡甜食,所以許多公司生產(chǎn)甜的食品,并且由于大規(guī)模生產(chǎn),所以價(jià)格便宜,因此食品雜貨店可以有效定價(jià),銷售量也好。

這也說(shuō)明超市可以通過(guò)更好的分析來(lái)增加收入。這一切的背后都是數(shù)據(jù)科學(xué),數(shù)據(jù)科學(xué)有助于回答以下問(wèn)題。

為了客戶利益和投資回報(bào)率(ROI),應(yīng)該嘗試去賣哪些新產(chǎn)品?紅醋栗派?橘子酒?法國(guó)風(fēng)味的櫻桃派?野豬肉?紫薯奶酪?紅雞蛋?球狀奶酪?(雖然球形不像平行的方形管道形狀,從存儲(chǔ)的角度來(lái)看不是最優(yōu)的,但這是另一個(gè)數(shù)據(jù)科學(xué)問(wèn)題。)

你如何確定一個(gè)新產(chǎn)品的成功或失敗?你如何測(cè)試一個(gè)新產(chǎn)品(實(shí)驗(yàn)設(shè)計(jì)問(wèn)題)?

哪些產(chǎn)品應(yīng)該被淘汰?(美國(guó)的大多數(shù)雜貨店將不再出售百香果、百香果汁和正宗的意大利香腸。)

如何度量提升力(收入增長(zhǎng))?你有考慮營(yíng)銷費(fèi)用和其他費(fèi)用等因素嗎?

如何給一件商品定價(jià)?

如何進(jìn)行交叉銷售?

在營(yíng)銷活動(dòng)中,如何優(yōu)化投資回報(bào)率?

什么時(shí)候及在哪里銷售哪種產(chǎn)品(根據(jù)季節(jié)性和地方性趨勢(shì))?

如何改進(jìn)庫(kù)存預(yù)測(cè)?

上次我去一家雜貨店,購(gòu)買全脂無(wú)糖酸奶。我在商店里找了10分鐘,只找到最后的一盒(品牌是Dannon)。我已經(jīng)準(zhǔn)備多花點(diǎn)錢購(gòu)買這種酸奶(世界上數(shù)十億人消費(fèi)了幾千年的產(chǎn)品),而不是另兩種選擇:低脂肪,或原味帶甜的酸奶。(諷刺的是,這種“低脂肪”版本含有180卡路里,而以前普通的酸奶只含有150卡路里。這是因?yàn)榈椭镜漠a(chǎn)品中有玉米淀粉。)

隨著時(shí)間的推移,我發(fā)現(xiàn)雜貨鋪供應(yīng)的產(chǎn)品數(shù)量正在減少。很多舊產(chǎn)品被淘汰,引入了一些新產(chǎn)品。顯然,這些被淘汰的產(chǎn)品市場(chǎng)較小,如百香果。但是,數(shù)據(jù)科學(xué)能不能更好地幫助食品雜貨零售商決定上架的商品,決定何時(shí)及在哪里銷售,并以多少比例和什么價(jià)格銷售呢?

答案是肯定的。一個(gè)好的解決方案是,借助具有較高預(yù)測(cè)能力的模型,在預(yù)測(cè)銷售量和(每種產(chǎn)品)收入時(shí),顆粒度更精細(xì),方差更小。在這種情況下,雖然很多人盡量避免有脂酸奶,但在西部和東部沿海地區(qū)有很多較瘦的人不介意喝原味酸奶。因此,在西雅圖或波士頓可以銷售原味酸奶(也許僅僅是幾十盒高價(jià)的產(chǎn)品,放置在低價(jià)低脂品牌旁),但在堪薩斯市則銷售不了。

這也為專用雜貨店創(chuàng)造了新的機(jī)會(huì),如在美國(guó)西北部的PCC自然品市場(chǎng),賣的正是其他超市已經(jīng)停止出售的產(chǎn)品(只要是暢銷的)??傊?,是銷售能產(chǎn)生利潤(rùn)但其他超市已經(jīng)不再銷售的產(chǎn)品。

這個(gè)例子也說(shuō)明了,對(duì)于數(shù)據(jù)科學(xué)家,溝通技巧是很重要的:提出了一種新方法,并說(shuō)服高管使用這種方法,可以同時(shí)優(yōu)化利潤(rùn),且給客戶帶來(lái)長(zhǎng)遠(yuǎn)的價(jià)值。當(dāng)然,這樣的做法將是一個(gè)長(zhǎng)期的戰(zhàn)略投資,在短期內(nèi)可能無(wú)法滿足財(cái)務(wù)上的數(shù)字(公司的首席執(zhí)行官需要和股東說(shuō)明)。

情景11:用較好的相關(guān)性增加亞馬遜的銷售量

亞馬遜是如何通過(guò)重新定義相關(guān)性來(lái)增加銷售量的?答案:通過(guò)改進(jìn)其搜索和相關(guān)性引擎,把物品價(jià)格當(dāng)作主要的相關(guān)因素。這里所描述的優(yōu)化和提升投資回報(bào)率的做法,適用于所有的數(shù)字化產(chǎn)品類別,雖然在本書中我們只針對(duì)書籍這個(gè)類目進(jìn)行了討論。

1搜索引擎

當(dāng)你在亞馬遜網(wǎng)站上的購(gòu)書欄搜索關(guān)鍵詞時(shí),返回的搜索結(jié)果頁(yè)面,有10本推薦的書與你的關(guān)鍵詞匹配。這是由搜索引擎執(zhí)行的。搜索引擎會(huì)以某種排序顯示圖書。該排序是基于價(jià)格或關(guān)鍵詞相似度的。

2相關(guān)性引擎

如果你搜索一個(gè)特定的書名,亞馬遜還會(huì)基于其他用戶的購(gòu)買記錄,顯示你可能感興趣的其他的書。這項(xiàng)任務(wù)是由相關(guān)性引擎執(zhí)行的。

技術(shù)講義

相關(guān)性引擎的工作原理是這樣的:如果有m(A,B) 個(gè)用戶在過(guò)去30天內(nèi)都購(gòu)買了A書(是你想要購(gòu)買的書)和B書,而k(A)代表購(gòu)買A書的用戶數(shù),k(B)代表購(gòu)買B書的用戶數(shù),那將A和B之間的關(guān)聯(lián)(從交叉銷售的角度,這些書的關(guān)聯(lián)程度)定義為R(A,B)=m(A,B)/SQRT{k(A)*k(B)}。所推薦的書籍排序完全由函數(shù)R(A,*)決定。

3更好的排序標(biāo)準(zhǔn)

昂貴的圖書將產(chǎn)生很少的銷售量,但有巨大的利潤(rùn)。廉價(jià)的圖書利潤(rùn)較少,但銷售數(shù)量能彌補(bǔ)每本書的利潤(rùn)??傊?,如果顯示的書都跟用戶的相關(guān)性評(píng)分相同,那么在#1位置顯示的書的定價(jià)應(yīng)使得預(yù)期總收益最優(yōu)。圖1-1顯示了一個(gè)假想的最優(yōu)圖書定價(jià)是21美元。

此圖基于模擬的數(shù)字,假設(shè)書售出的機(jī)會(huì)是圖書定價(jià)的指數(shù)遞減函數(shù)。也就是:

P(sale | price) = a * exp(-b*price)

其中sale為銷售量,price為售價(jià)。一個(gè)更一般的模型是:

P(sale | price, relevancy score) = a * exp(-b*price) * f(relevancy score)

其中relevency score為相關(guān)性評(píng)分。

另一種能進(jìn)一步增加收入的方式是,將用戶數(shù)據(jù)也包含在公式中。一些用戶有能力購(gòu)買一本昂貴的書。對(duì)于經(jīng)常購(gòu)買更昂貴圖書的用戶,應(yīng)該在他們的搜索結(jié)果中,顯示更昂貴的書籍。

4把所有東西放在一起

當(dāng)銷售產(chǎn)生時(shí),我們?cè)趺粗?,是因?yàn)榘颜_定價(jià)的書籍顯示在了頂部,還是因?yàn)橥昝赖南嚓P(guān)性?例如,“數(shù)據(jù)科學(xué)”和“大數(shù)據(jù)”之間的關(guān)聯(lián)性很強(qiáng),但“數(shù)據(jù)科學(xué)”和“云計(jì)算”之間的關(guān)聯(lián)性不是很強(qiáng)。如果你的目標(biāo)是利潤(rùn)最大化的話,那么是把一本昂貴的“云計(jì)算”書推薦給一位對(duì)“數(shù)據(jù)科學(xué)”感興趣的富人,或者給他推薦一本不太貴的與“大數(shù)據(jù)”相關(guān)的書,哪種做法明智?這也取決于你如何定義收入優(yōu)化:是長(zhǎng)期(關(guān)聯(lián)性更重要)或短期,還是短期和長(zhǎng)期的混合。正如你所看到的,從價(jià)格因素中分離出關(guān)聯(lián)性影響是不容易的。

當(dāng)關(guān)鍵詞或類別的相關(guān)性是基于“小數(shù)據(jù)”的(指專門的用戶查詢或銷售量小的書籍),價(jià)格因素特別有效。此外,檢測(cè)到底是什么帶來(lái)特定的轉(zhuǎn)化或銷售,是一個(gè)復(fù)雜的問(wèn)題,這被稱為歸因。在復(fù)雜的情形下,宏觀經(jīng)濟(jì)(長(zhǎng)期,總量的)指標(biāo),混合了非常細(xì)粒度的實(shí)時(shí)屬性指標(biāo),可用于營(yíng)銷組合優(yōu)化。使用價(jià)格彈性模型和效率曲線也可進(jìn)行價(jià)格分析。

另一個(gè)有意思的領(lǐng)域是自定義定價(jià),實(shí)時(shí)地根據(jù)客戶、客戶的購(gòu)買記錄(如果可用)、銷售該書的網(wǎng)站(根據(jù)網(wǎng)站的統(tǒng)計(jì)數(shù)據(jù))和書本身來(lái)確定書價(jià)。一些研究表明,一個(gè)固定的價(jià)格是最好的,否則精明的用戶會(huì)嘗試多次購(gòu)買相同的項(xiàng)目,直到他們得到可能最低的價(jià)格(雖然他們沒(méi)有辦法知道什么時(shí)候價(jià)格最低)。然而,向那些不介意購(gòu)買昂貴圖書的用戶銷售高價(jià)圖書(根據(jù)他們的購(gòu)買歷史),而不是推薦用戶已經(jīng)購(gòu)買過(guò)的書,是改善投資回報(bào)率最容易的方法。然而,在一些國(guó)家,這種定價(jià)策略已經(jīng)被禁止,在其他一些地方也有爭(zhēng)議。特別要注意,如果定制化價(jià)格是悄悄執(zhí)行,沒(méi)有被用戶了解和同意,還采用不道德的數(shù)據(jù)挖掘的做法并侵犯隱私的話,可能會(huì)導(dǎo)致用戶對(duì)你信任下降,并最終導(dǎo)致客戶流失、法律訴訟和收入下降。最終,用戶會(huì)注意到價(jià)格是定制的。

另一種最大限度地提高亞馬遜的利潤(rùn)的方法,是按需求印刷書籍,而不是管理庫(kù)存、每月預(yù)測(cè)每本書的銷量。數(shù)據(jù)科學(xué)還有助于確定倉(cāng)庫(kù)位置,以優(yōu)化交付效果(在速度和成本方面),以及銷售稅的優(yōu)化,從而更好地與其他書商競(jìng)爭(zhēng)。

情景12:檢測(cè)Facebook上的假檔案或假“喜歡”數(shù)

某些網(wǎng)站出售假Twitter粉絲(1 000個(gè)粉絲10美金)、假的Facebook賬號(hào),或甚至假的雅虎郵件賬號(hào),用來(lái)傳播垃圾郵件,提升個(gè)人或零售商人氣,據(jù)說(shuō)還可以用來(lái)促進(jìn)銷售。他們預(yù)先告訴買家,這些粉絲是假冒的。他們也在網(wǎng)上賣在Facebook點(diǎn)的“喜歡”數(shù),并且他們聲稱“喜歡”數(shù)是來(lái)自“真正的”Facebook用戶。

自動(dòng)檢測(cè)假“喜歡”數(shù)最簡(jiǎn)單的方法是看相關(guān)評(píng)論數(shù):如果一個(gè)Facebook(或任何)帖子后有5000個(gè)“喜歡”數(shù),但沒(méi)有評(píng)論或只有20條評(píng)論,并且評(píng)論內(nèi)容都類似于“這是個(gè)很棒的帖子”,那就可以確定“喜歡”數(shù)和評(píng)論是機(jī)器人或水軍造假的。

數(shù)據(jù)科學(xué)算法就是根據(jù)這樣的指標(biāo),以及社交網(wǎng)絡(luò)圖、變化速度、近期賬戶創(chuàng)建和發(fā)布情況、自然語(yǔ)言處理和僵尸網(wǎng)絡(luò)/欺詐檢測(cè)規(guī)則來(lái)處理問(wèn)題的。一些造假可以實(shí)時(shí)檢測(cè)到,而一些會(huì)稍后檢測(cè)和消除掉,比如通過(guò)臨時(shí)分析(數(shù)據(jù)分析師執(zhí)行的反應(yīng)式分析)或一天結(jié)束后的算法自動(dòng)分析(慣例分析)。

情景13:餐廳的分析

對(duì)于小企業(yè),特別是餐館,分析可以有很多種形式。這些企業(yè)需要解決的問(wèn)題包括定價(jià)優(yōu)化、庫(kù)存管理、銷售預(yù)測(cè)、獲取競(jìng)爭(zhēng)對(duì)手的信息、客戶對(duì)你的建議(比如需要使用一些自動(dòng)化軟件定期檢查客戶對(duì)餐廳的評(píng)論)、空間優(yōu)化(餐廳最多可以放多少?gòu)堊雷?、葡萄酒和奶酪的選擇、菜單變化的頻率、每天和每月的開業(yè)和歇業(yè)時(shí)間、維持的廚師數(shù)量(包括決定最佳薪酬)。

可能最容易解決的問(wèn)題之一是桌子的布局。最佳的解決方案是讓2個(gè)座位的桌子靠在墻邊,4個(gè)座位的桌子在房間的中央。這些桌子應(yīng)該是圓形的還是正方形的,平行于墻壁或形成一個(gè)45°角?很容易找到一個(gè)數(shù)學(xué)解決方案,或者至少做一些模擬,找出哪種最有效。正方形的桌子比圓形的好,可以輕松地組合起來(lái),適應(yīng)更大的派對(duì)。假設(shè)餐廳總是被預(yù)訂滿并贏利,如果你增加20%的座位容量,那么你的利潤(rùn)也應(yīng)該增加20%。


數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }