日产精品高潮呻吟av久久,男女做受高潮试看120秒,顶级欧美熟妇高清xxxxx

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

13個(gè)真實(shí)世界情景中的數(shù)據(jù)科學(xué)應(yīng)用

2017-06-06

13個(gè)真實(shí)世界情景中的數(shù)據(jù)科學(xué)應(yīng)用

現(xiàn)在讓我們看看13個(gè)在真實(shí)世界情景下的例子，了解現(xiàn)代數(shù)據(jù)科學(xué)家可以幫助我們做些什么。這些例子將有助于你學(xué)習(xí)如何專注于一個(gè)問題和如何形式化一個(gè)問題，以及如何仔細(xì)評估所有潛在問題——總之，是學(xué)習(xí)數(shù)據(jù)科學(xué)家在提出解決方案之前，如何定位問題和進(jìn)行戰(zhàn)略性思考。你也會(huì)看到為什么一些廣泛使用的技術(shù)，如標(biāo)準(zhǔn)回歸，可能并不適合所有情況。

數(shù)據(jù)科學(xué)家的思維方式不同于工程師、運(yùn)籌學(xué)專業(yè)人士、計(jì)算機(jī)科學(xué)家。雖然運(yùn)籌學(xué)涉及很多分析，但這一領(lǐng)域的焦點(diǎn)是具體業(yè)務(wù)優(yōu)化層面，如庫存管理和質(zhì)量控制。運(yùn)籌學(xué)涉及國防、經(jīng)濟(jì)、工程、軍事等領(lǐng)域。它采用馬爾可夫模型、蒙特卡洛模擬、排隊(duì)論、隨機(jī)過程，以及(由于歷史原因)Matlab和Informatica工具。

數(shù)據(jù)科學(xué)會(huì)遇到兩種基本類型的問題。

1.內(nèi)部數(shù)據(jù)科學(xué)問題，如損壞的數(shù)據(jù)、粗心的分析或使用不恰當(dāng)?shù)募夹g(shù)。內(nèi)部問題不是針對業(yè)務(wù)而言，而是針對數(shù)據(jù)科學(xué)社區(qū)。因此，解決辦法包括訓(xùn)練數(shù)據(jù)科學(xué)家更好地工作，要他們遵循最佳做法。

2.業(yè)務(wù)應(yīng)用問題是現(xiàn)實(shí)世界中的問題，因此要尋求解決方案，如欺詐檢測，或識別一個(gè)因素是原因還是結(jié)果。這些可能涉及內(nèi)部或外部(第三方)數(shù)據(jù)。

情景1：國家對烈性酒銷售的壟斷結(jié)束后，DUI(酒后駕駛)逮捕量減少

最近發(fā)表在MyNorthWest報(bào)紙上的一篇文章，說到一年前在華盛頓州實(shí)施的一條新法律，允許雜貨店銷售烈性酒類。這里的問題是如何評估和解釋在法律生效后，酒后駕車者的逮捕量下降。

作為一個(gè)數(shù)據(jù)科學(xué)家，你首先需要制定一個(gè)可能解釋逮捕量下降的原因列表(通過與客戶或老板的討論)。然后設(shè)計(jì)一個(gè)方案，排除其中的一些原因，或?yàn)槊總€(gè)原因附上正確的權(quán)重，或簡化結(jié)論，判定這個(gè)問題除非有更多的數(shù)據(jù)或信息可以使用，否則沒法回答。

以下是15個(gè)可能原因，以及跟酒后駕車逮捕率報(bào)告存在悖論的問題。你當(dāng)然可以想出更多的理由。

在數(shù)據(jù)收集過程中有差錯(cuò)(數(shù)據(jù)是錯(cuò)誤的)。

這篇文章的作者，可能與別人有利益沖突、想推銷特定的觀點(diǎn)，或是出于政治動(dòng)機(jī)。也許只是一個(gè)大膽的謊言。

之所以酒后駕駛被逮捕的人數(shù)變少，也許是因?yàn)榫斓娜耸稚倭恕?

在這一時(shí)期內(nèi)，其他犯罪率也有所下降，這是犯罪率總體下降趨勢的一部分。若沒有這條新法律，酒后駕駛的逮捕量會(huì)不會(huì)下降更多?

缺乏統(tǒng)計(jì)顯著性。

存在其他更為嚴(yán)厲的刑罰，阻止了酒后駕車行為。

年紀(jì)大的酒客多，因?yàn)樗麄円呀?jīng)肇事死亡，所以逮捕量下降。

總?cè)丝谠黾?，但喝酒的人?shù)減少，因?yàn)橐泼衤矢叩氖侵袊撕陀《热?，但他們中喝酒的人?shù)比例遠(yuǎn)遠(yuǎn)低于其他人口群體。

酒后駕車逮捕量統(tǒng)計(jì)口徑是針對華盛頓居民，還是非居民的?

這一法律沒有效果，在此之前，人們也可以從華盛頓的雜貨店買酒(除了烈性酒)。

(可能是因?yàn)樵黾恿硕愂?，酒價(jià)升高，導(dǎo)致酒精消費(fèi)減少(盡管酒精和煙草消費(fèi)對價(jià)格彈性變化有抵抗力)。

人們現(xiàn)在開車到更近的地方就能買到烈性酒，因此，喝烈性酒駕駛而被逮捕的人變少了。

所有酒后駕駛逮捕量都下降，還是僅僅喝烈性酒的酒后駕駛逮捕量下降才如此?

一般來說，如果人們開車次數(shù)減少了，無論對飲酒者還是非飲酒者來說，那么可能的原因就是汽油價(jià)格上漲了。

要評估這個(gè)新法律的影響，有一個(gè)更好的指標(biāo)是華盛頓居民的酒類(特別是烈性酒)的總消費(fèi)量。

數(shù)據(jù)科學(xué)家必須選擇正確的方法來評估新法律的影響，并想出如何獲得評估所需數(shù)據(jù)的方法。實(shí)際上，逮捕量減少的真正原因是，喝烈性酒者可以開車在很短的距離內(nèi)就能買到烈性酒。對華盛頓州來說，問題在于判斷該法律能否減少因酒精消費(fèi)而產(chǎn)生的社會(huì)問題代價(jià)(是否會(huì)增加酒精銷售的稅收、裁減州內(nèi)商店的員工，使酒精相關(guān)的犯罪率維持適度水平或完全消失等)。

情景2：數(shù)據(jù)科學(xué)與直覺

在管理層圈子里，許多決定仍然依靠直覺。然而，正如這個(gè)例子所示，數(shù)據(jù)科學(xué)和統(tǒng)計(jì)分析結(jié)果優(yōu)于直覺，讓你不至于憑直覺而形成錯(cuò)誤的結(jié)論。

雙數(shù)據(jù)點(diǎn)是指幾乎相同的觀測值。在許多不同類型的數(shù)據(jù)集中，這種情況經(jīng)常出現(xiàn)，而非特例。在任何有300多行數(shù)據(jù)的二維或三維的數(shù)據(jù)集中，如果數(shù)據(jù)是定量的，并均勻地分布在一個(gè)有界空間中，你應(yīng)該會(huì)看到大比例(大于 15%)的數(shù)據(jù)點(diǎn)都有一個(gè)近鄰。

這適用于所有數(shù)據(jù)集，但這一發(fā)現(xiàn)首先是從星系照片里發(fā)現(xiàn)的。星系照片里有很多雙星，你可能會(huì)直覺地認(rèn)為，有一些內(nèi)在原因使得星星成對地聚集在一起。但是，如果你知道純概率，你會(huì)發(fā)現(xiàn)，即使沒有任何外部機(jī)制推動(dòng)，15%的星星也會(huì)屬于雙星系統(tǒng)。

例如，我們可以考慮一個(gè)包含500顆星星的星系。計(jì)算這些星星構(gòu)成雙星系統(tǒng)的純概率，結(jié)果如下。

至少有60顆(12%)星星屬于雙星系統(tǒng)的概率為85%。

至少有80顆(16%)星星屬于雙星系統(tǒng)的概率為18%。

至少有100顆(20%)星星屬于雙星系統(tǒng)的概率(幾乎)為0%。

然而，在現(xiàn)實(shí)中，超過80%的星星都屬于雙星系統(tǒng)。概率統(tǒng)計(jì)不支持這個(gè)數(shù)字;因此，很明顯有一些機(jī)制使得星星成對聚集。

該問題提供了一個(gè)很好的、可以測試你分析直覺的機(jī)會(huì)。看看圖表里的雙生觀測值，然后目測評估下雙生觀測值是自然的(隨機(jī))還是非自然的(數(shù)量太多或太少)?？梢詫懸欢未a當(dāng)作練習(xí)(Python、Perl、R代碼)，進(jìn)行模擬(包括更復(fù)雜的三維情況)，檢查下理論結(jié)果，并比較一下R、Perl、Python的速度差異。

技術(shù)講義

假設(shè)，有一張10cm×10cm的夜空圖，其有大約n=500個(gè)可見的星星(數(shù)據(jù)點(diǎn))，而雙星定義是一顆星星和鄰近的星星距離是1mm(或更短)。如果恒星是完美隨機(jī)分布的，則500顆恒星中，位于雙星系統(tǒng)中的星星數(shù)量將是73顆(平均而言)。這個(gè)數(shù)字遠(yuǎn)遠(yuǎn)高于大多數(shù)人所認(rèn)為的數(shù)字。這一比例可以表示為p，因此p=14.5%，在500顆恒星中，預(yù)計(jì)位于雙星系統(tǒng)中的星星數(shù)量為n*p=73。

在這種情況下，可以用Poisson過程的理論來計(jì)算該概率。如果500個(gè)點(diǎn)分布在一個(gè)100mm×100mm的區(qū)域(一個(gè)放大的夜空圖)，則Poisson過程的強(qiáng)度L是每平方毫米面積內(nèi)點(diǎn)的數(shù)量，即L=500/(100mm×100mm)=0.05/mm2。

在1 mm距離之內(nèi)一顆星星至少有一個(gè)鄰近點(diǎn)的概率p為1-Proba(0個(gè)鄰近點(diǎn))=1-exp(-L*Pi*r2)，其中r=1mm，Pi=3.14。這里Pi*r2是一個(gè)半徑為1mm的圓的面積。指數(shù)項(xiàng)是一個(gè)Poisson過程，在一個(gè)給定的集合里(圓、矩形等)，點(diǎn)的數(shù)目有一個(gè)均值為L*Area的Poisson分布。因此p=0.145。

所以是否屬于雙星，是一個(gè)參數(shù)p=0.145的伯努利(1/0)變量。V可以表示位于雙星系統(tǒng)中的星星數(shù)目：V是參數(shù)p的n個(gè)伯努利變量的總和，因而是參數(shù)為n、p的二項(xiàng)式分布，而normal(0,1)分布跟標(biāo)準(zhǔn)化變量Z=(V-np)/SQRT{np(1-p)}的值非常近似。這個(gè)事實(shí)可以用來計(jì)算前面所說的概率。

替代計(jì)算：使用蒙特卡洛模擬，而不是使用理論模型，來計(jì)算這些概率，也可以得到相同的結(jié)果。這將涉及生成100萬個(gè)模擬圖像(二維數(shù)據(jù)表)，并在每個(gè)模擬圖像里，計(jì)算屬于雙星系統(tǒng)的星星數(shù)目。使用現(xiàn)代計(jì)算機(jī)、良好的隨機(jī)數(shù)生成器和智能算法，這項(xiàng)任務(wù)可以在幾分鐘內(nèi)自動(dòng)化進(jìn)行。

如果你使用樸素的做法，則該模擬過程可能是緩慢的。但計(jì)算n個(gè)距離，找最近的星星時(shí)，計(jì)算復(fù)雜度可以做得比O(n2)好得多。具體做法是將數(shù)據(jù)存儲(chǔ)在一個(gè)間隔為1mm的網(wǎng)格中(即，一個(gè)有100′100=10 000個(gè)單元格的二維數(shù)組)。因此，對于每一顆星星，你只需查看周圍的8個(gè)像素，來計(jì)算不到1mm距離的鄰近點(diǎn)的數(shù)目。通過使用1萬個(gè)1比特(代表存在/不存在)存儲(chǔ)單元，可以把O(n2)的復(fù)雜度降低到O(n)。

請注意，選100萬或1萬是隨意的，實(shí)際只需足夠大的數(shù)字，保證所估計(jì)的結(jié)果足夠穩(wěn)定即可，數(shù)字若再大則不會(huì)帶來更準(zhǔn)確的結(jié)果。選擇合適的樣本和樣本大小是一個(gè)實(shí)驗(yàn)設(shè)計(jì)問題，并且使用無模型的置信區(qū)間有利于這項(xiàng)任務(wù)的開展，也保證結(jié)果穩(wěn)健。這種蒙特卡洛模擬方法較受運(yùn)籌學(xué)專業(yè)人士的青睞，一些數(shù)據(jù)科學(xué)家、計(jì)算機(jī)科學(xué)家、喜歡無模型統(tǒng)計(jì)建模的軟件工程師們也較鐘愛。然而，在這個(gè)案例里，理論模型眾所周知，也很簡單(即使不是很基礎(chǔ))，也能快速而簡捷地得到答案。所以，除非你必須花很多時(shí)間才能理解它的原理，否則還是建議尋找理論解決方案。

附加說明：在這個(gè)例子中，星星顯示在二維屏幕上。在現(xiàn)實(shí)中，它們存在于三維空間中。從X坐標(biāo)和Y坐標(biāo)來看兩顆星星可能是鄰近的，但在Z軸上它們可能是永久分開的。所以要計(jì)算出雙星的真實(shí)比例期望值，你就得模擬三維空間里的星星(點(diǎn))，投影到矩形內(nèi)計(jì)算出雙星的比例。在這種情況下，我不確定該理論模型是否是簡單的解決方案，但蒙特卡洛模擬仍然是簡單的。在實(shí)踐中，實(shí)際上遙遠(yuǎn)的恒星不夠明亮而不能顯示在圖片上，所以二維模型確實(shí)是對真實(shí)的三維問題很好的近似。

此外，在理論模型中，關(guān)于星星的位置有一些隱含的獨(dú)立性的假設(shè)(當(dāng)提到二項(xiàng)式模型時(shí))，但這不是實(shí)際情況，因?yàn)樾切侵車?mm直徑范圍內(nèi)有時(shí)會(huì)重疊。但這種近似依然不錯(cuò)，并且是保守估計(jì)的。而理論上的數(shù)字，如果排除重疊，肯定要高于73。

情景3：數(shù)據(jù)故障將數(shù)據(jù)變成亂碼

在數(shù)據(jù)導(dǎo)入或?qū)С龅倪^程中，有許多出差錯(cuò)的例子。這通常是架構(gòu)較差的結(jié)果，或者使用了錯(cuò)誤的工具，或者盲目依賴工具而不進(jìn)行數(shù)據(jù)質(zhì)量檢查的原因。數(shù)據(jù)科學(xué)家如何檢測和解決這個(gè)問題?

Microsoft Access有時(shí)不能正確導(dǎo)入或?qū)С鰯?shù)據(jù)類型，使數(shù)據(jù)庫表自動(dòng)甚至是強(qiáng)迫類型轉(zhuǎn)換，輸出文本或CSV文件(或其他格式)，結(jié)果較差，容易導(dǎo)致許多錯(cuò)誤。這種情況發(fā)生，是因?yàn)榄h(huán)境不夠靈活，從而不能進(jìn)行智能的類型檢測并進(jìn)行類型轉(zhuǎn)換。例如，你是否處理過以下情況，一行日期數(shù)據(jù)被記錄為整數(shù)，另一行卻被記錄為mmddyy格式(月、日、年格式，比如2016年10月5日記為100516)?或者是你不得不處理數(shù)據(jù)字段值內(nèi)的逗號，因?yàn)檫@會(huì)搞砸你的CSV文件?

我收到過許多數(shù)據(jù)文件，損壞率達(dá)到5%以上。有時(shí)兩種不同類型的值(廣告主關(guān)鍵詞與用戶查詢，或來源域名與廣告網(wǎng)絡(luò)域名)存儲(chǔ)在同一字段中。有時(shí)字段沒有正確對齊。有時(shí)看起來制作數(shù)據(jù)的人不是使用正則表達(dá)式的專家，或是總是錯(cuò)誤地使用分隔符。有時(shí)則是因?yàn)檐浖咽虑楦阍懔恕?

有時(shí)這些差錯(cuò)有不良的副作用，比如你的數(shù)據(jù)庫里有一個(gè)非真實(shí)的用戶ID，成為所有沒有ID的用戶的垃圾收集器，導(dǎo)致分析數(shù)據(jù)時(shí)有缺陷。但在其他時(shí)候不是個(gè)大問題。

以下幾個(gè)例子是講混亂的數(shù)據(jù)、混亂的格式和不完整的數(shù)據(jù)整合如何導(dǎo)致嚴(yán)重的錯(cuò)誤，以及如何解決這些問題。

Wells Fargo(美國富國銀行)：IBM Tealeaf用戶的會(huì)話被分解成多個(gè)會(huì)話，因?yàn)槊總€(gè)服務(wù)器都有自己的網(wǎng)絡(luò)日志，而這些日志并沒有被正確混合。這種情況下主要是架構(gòu)設(shè)計(jì)造成的問題。幸運(yùn)的是，發(fā)現(xiàn)和解決這個(gè)問題能幫助我們形成對該類問題的洞察力。

eBay(易貝)：數(shù)據(jù)傳輸過程中把法語和德語關(guān)鍵詞的特殊字符刪除了，造成了數(shù)據(jù)不一致性。通過建立臨時(shí)的外鍵查找表，讓正確的和錯(cuò)誤的拼寫對應(yīng)，從而可以解決數(shù)據(jù)不一致的問題。

點(diǎn)擊欺詐檢測：關(guān)鍵詞字段有時(shí)代表用戶查詢(如谷歌查詢)，有時(shí)是一個(gè)預(yù)先指定的關(guān)鍵詞類別，這取決于廣告網(wǎng)絡(luò)聯(lián)盟公司的種類。如果相關(guān)公司的關(guān)鍵詞是屬于關(guān)鍵詞類別的，我們會(huì)施加一個(gè)較大的錯(cuò)誤懲罰值，這是因?yàn)?出于設(shè)計(jì)而非欺詐的原因)這種關(guān)鍵詞的分布很差。添加一個(gè)指定關(guān)鍵詞類型的新字段，能夠解決該類問題。

作為練習(xí)，我希望你多想想這些類型的問題，并回答以下問題。以下問題都是常見的、有趣的工作面試問題。

你如何處理這些問題?

如何自動(dòng)檢測這些差錯(cuò)?該問題是質(zhì)量保證(QA)問題嗎?

在大數(shù)據(jù)情景下這類問題是變得更糟了嗎?檢測問題和解決問題，哪個(gè)比較困難?

能夠容許多少壞數(shù)據(jù)?能否容許1%的錯(cuò)誤?欺詐檢測的話能容許的錯(cuò)誤甚至更少嗎?

解決這些問題，你花費(fèi)了多長時(shí)間?

如何設(shè)計(jì)智能的類型轉(zhuǎn)換?

情景4：異?？臻g的回歸

這個(gè)例子說明了在使用傳統(tǒng)技術(shù)解決新問題之前，需要改進(jìn)原有技術(shù)，如回歸。這些技術(shù)有些已經(jīng)超過了100年，是統(tǒng)計(jì)分析領(lǐng)域的主要工具。針對小的數(shù)據(jù)集，已經(jīng)有簡單的數(shù)學(xué)方案能解決問題。隨著大數(shù)據(jù)和大規(guī)模并行計(jì)算能力的出現(xiàn)，情況已經(jīng)不同。

比如，你想通過逆向工程得到可口可樂的配方?；谠S多人的品嘗結(jié)果(根據(jù)實(shí)驗(yàn)設(shè)計(jì))，響應(yīng)值Y衡量你的配方跟可口可樂真正配方的接近程度。事實(shí)上，這非常類似于在臨床試驗(yàn)中，通過測試混合的原子或化學(xué)基(每個(gè)組合產(chǎn)生一個(gè)獨(dú)特的分子)來改善藥物效果。而自變量是二進(jìn)制值，每一個(gè)代表一個(gè)成分，如鹽、水、玉米糖漿等。如果所討論的成分在配方中是存在的，則該值等于1，否則等于0。這與標(biāo)準(zhǔn)的線性或邏輯回歸有很大的差異。

技術(shù)講義

回歸系數(shù)a_k (k = 1,…,m) 必須滿足以下要求。

每個(gè)k都是正數(shù)(a_k大于或等于0)。

這些系數(shù)的總和等于1。

總之，你在單純形空間進(jìn)行回歸，其中a_k代表混合的比例。這種回歸有一個(gè)有趣的特性，a_k系數(shù)的平方和等于由SUM(a_k)=1定義的m-1面體面積的平方，且a_k大于或等于0。(這是畢達(dá)哥拉斯定理的一個(gè)泛化。)這有點(diǎn)像一個(gè)套索回歸、嶺回歸或邏輯(是logic而不是logistic)回歸，但放在貝葉斯框架里，也可以利用馬爾可夫蒙特卡洛(MCMC)來解決。

如何解決在一個(gè)球面上的回歸?例如：

根據(jù)鳥的視線，找出加拿大大雁的遷徙飛行路徑。

針對一顆在行星上撞擊出多個(gè)排一起的隕石坑的流星，計(jì)算其軌跡和起源。

基于火山的位置探測地質(zhì)斷層(兩者幾乎是一一對應(yīng)的，比如在喀斯喀特山脈內(nèi)，或在大西洋中部的海底)。

答案是通過將球面映射到平面上，通過平面回歸來解決問題。

在這個(gè)例子中，目的是創(chuàng)造一個(gè)競爭產(chǎn)品，口味和可口可樂一樣，用不同的名字稱呼它，并以更低的價(jià)錢銷售。如果味道是相同的，但成分是不同的，那么可口可樂制造商若起訴你復(fù)制他們的配方是沒法勝訴的。我認(rèn)為，Virgin(維京)幾乎克隆出來了這個(gè)味道。當(dāng)然，百事可樂并不相近：味道是那么不同，二者就像蘋果和橘子的差別。

最后說回來，有許多不同的方法來解決回歸問題(或任何數(shù)據(jù)科學(xué)問題。如果你使用正確的參數(shù)，則不同解決方案在效率方面往往是等效的。例如，你可以用純優(yōu)化或純數(shù)學(xué)解決這個(gè)問題。統(tǒng)計(jì)學(xué)家會(huì)認(rèn)為，使用這種方法不能為回歸參數(shù)建立置信區(qū)間，或沒法測試是否有一些參數(shù)等于0。作為替代，我自己設(shè)計(jì)了一個(gè)無須統(tǒng)計(jì)模型就可以計(jì)算置信區(qū)間的方法。這個(gè)方法被稱為分析橋(Analyticbridge)第一定理，將在這本書更多技術(shù)化的章節(jié)里得到描述。

情景5：分析與誘導(dǎo)在提升銷量上有何不同價(jià)值

這個(gè)例子說明即使是最好的分析，如果你忽略了其他關(guān)鍵的、使業(yè)務(wù)成功的要素，也不會(huì)很有用?？傊?，對于所有業(yè)務(wù)問題，分析并不是萬能的。

這個(gè)情景的背景是提高轉(zhuǎn)化率，如將網(wǎng)站訪問者轉(zhuǎn)化為活躍用戶，或者是將被動(dòng)的簡報(bào)訂閱者轉(zhuǎn)化為業(yè)務(wù)意向(打開簡報(bào)和點(diǎn)擊鏈接即代表意向)。在此我們討論簡報(bào)的轉(zhuǎn)化問題，雖然這個(gè)例子可以適用于許多不同的環(huán)境。

為了最大限度地提高總的意向數(shù)量，你需要使用誘導(dǎo)手段和分析手段。銷售量是一個(gè)與下列影響因子密切相關(guān)的函數(shù)。

誘導(dǎo)

分析

產(chǎn)品

價(jià)格

競爭

聲譽(yù)

市場營銷

首先，即使是度量“誘導(dǎo)”或“分析”也是很困難的。但是你可以用一個(gè)0～10的級別(10表示最好的)，誘導(dǎo)值=9代表公司在使用誘導(dǎo)方法上非常努力，而分析值=0代表公司完全忽視分析手段。

在優(yōu)化簡報(bào)郵件方面(從而最大限度地提升意向的數(shù)量和規(guī)模)，大多數(shù)公司把誘導(dǎo)設(shè)置為1，把分析設(shè)置為4或5。通常是通過多變量測試、數(shù)學(xué)分割、用戶群定向進(jìn)行分析的。這種方法來源于營銷人員所受的訓(xùn)練——但是，這不是最好的方法。現(xiàn)在，ISP(互聯(lián)網(wǎng)服務(wù)提供商)提供的用戶細(xì)分，比傳統(tǒng)的用戶分組技術(shù)更關(guān)鍵。未能送達(dá)給Gmail用戶，比起分組不當(dāng)送達(dá)給不恰當(dāng)?shù)腉mail用戶，后者更糟糕(例如，年輕用戶和年老用戶雖然收到不同的信息，但是這些信息并不是有針對性發(fā)送的)。

另一個(gè)關(guān)鍵的錯(cuò)誤是在郵件主題上，重復(fù)使用相同的關(guān)鍵詞，剛開始這樣可能有效，但最終會(huì)使你的用戶厭煩而不想讀你的簡報(bào)(除非你已經(jīng)找到彌補(bǔ)用戶流失的方法，比如說雇用增長極客來幫助你解決問題)。如果你的競爭對手也使用完全相同的關(guān)鍵詞，這個(gè)問題就更加復(fù)雜了。

豐富多樣的、非炒作性的關(guān)鍵詞對于分析型、高學(xué)歷、厭惡垃圾郵件的用戶來說非常有效果。例如，一個(gè)主題行，如Weekly digest, July 29(digest用小寫字母d)比25 Fantastic Articles From Top Big Data Gurus(From用大寫字母F)的效果更好。當(dāng)然，后者可能在前兩次效果很好，但最終還是無效的。此外，你的簡報(bào)內(nèi)容必須與主題行緊密相關(guān)，否則你失去用戶的速度會(huì)比你獲得新用戶的速度快。

相反地，你可以基于誘導(dǎo)而不是分析手段，即，猜測用戶現(xiàn)在喜歡什么內(nèi)容，而不是根據(jù)歷史的效果數(shù)據(jù)來設(shè)計(jì)內(nèi)容。它也可以自動(dòng)化完成，并轉(zhuǎn)化為分析規(guī)則——例如，檢測一個(gè)關(guān)鍵熱詞奏效的次數(shù)，例如“肚皮舞分析”這一有效關(guān)鍵詞可以持續(xù)多久，等等。過度使用通過分析找到的技巧，最終會(huì)使得誘導(dǎo)手段沒有存在空間，也會(huì)拉低銷售。但現(xiàn)在，似乎很多網(wǎng)絡(luò)營銷者忽視了這些規(guī)則。誘導(dǎo)比分析提供一個(gè)更大的杠桿效應(yīng)(雖然它們應(yīng)該混合在一起)，特別是長期業(yè)務(wù)。

情景6：關(guān)于隱藏?cái)?shù)據(jù)

在該情景下，你的數(shù)據(jù)就像Gruyere奶酪一樣。它有很多、很大的孔。有時(shí)候，空白的空間占據(jù)著比數(shù)據(jù)本身更大的容積，就像在宇宙中暗物質(zhì)比可見物質(zhì)更豐富一樣。這個(gè)情景不是關(guān)于淺層的或稀疏的數(shù)據(jù)，而是關(guān)于你看不到的數(shù)據(jù)，你甚至不知道它們的存在，但它們比你的數(shù)據(jù)倉庫里的任何東西，都有更好的可操作價(jià)值。

以下是“Gruyere數(shù)據(jù)”的3種情況，以及每一種情況的補(bǔ)救方法。

1丟失的或不完整的數(shù)據(jù)

這是最容易解決的問題。任何有才華的數(shù)據(jù)科學(xué)家都可以使用現(xiàn)代的、無偏的數(shù)據(jù)補(bǔ)齊技術(shù)，來解決這個(gè)問題。大多數(shù)分析軟件也包括處理丟失數(shù)據(jù)的機(jī)制。

2經(jīng)過刪改的數(shù)據(jù)

所謂刪改，我的意思是從統(tǒng)計(jì)學(xué)角度看的。下面是一個(gè)例子：我們要估計(jì)所有至少涉及一次犯罪的槍支比例。我們使用的數(shù)據(jù)集(槍或犯罪統(tǒng)計(jì))已經(jīng)被刪改了，比如品牌的新槍今天并沒有用來殺人而沒被統(tǒng)計(jì)在內(nèi)，但可能下個(gè)星期就被用來射殺某人。此外，一些罪犯丟棄了他們的槍，在案發(fā)后可能追蹤不到該槍支。

你如何處理這個(gè)問題?任何有才華的數(shù)據(jù)科學(xué)家都能輕松使用正確的統(tǒng)計(jì)技術(shù)處理這個(gè)問題，使用統(tǒng)計(jì)分布(通常是指數(shù)的)來衡量犯罪時(shí)間，并基于刪改數(shù)據(jù)估計(jì)其平均值。這樣問題就解決了。

3隱藏?cái)?shù)據(jù)

處理隱藏?cái)?shù)據(jù)是一個(gè)大問題。首先，你甚至不知道它的存在，因?yàn)樗强床灰姷?，至少從你的角度來說是看不見的。領(lǐng)域?qū)I(yè)知識和統(tǒng)計(jì)學(xué)知識(更多技術(shù)知識的經(jīng)驗(yàn)法則)，會(huì)幫助你意識到潛在的隱藏?cái)?shù)據(jù)。事實(shí)上，數(shù)據(jù)可能根本就不存在，在這種情況下，首先你必須組裝數(shù)據(jù)。

思考這樣一個(gè)例子：假設(shè)Target公司在試圖優(yōu)化它的收入數(shù)字。它分析了銷售數(shù)據(jù)，看看與花園相關(guān)的物品什么時(shí)候銷售量最好。該公司總部在明尼蘇達(dá)州，2月份沒有任何關(guān)于花園物品的銷售數(shù)據(jù)，任何人提出這樣的分析做法可能被當(dāng)場解雇，或被懷疑是不是吃錯(cuò)藥。然而，在加州，2月份Target的競爭對手們的花園物品銷售量不錯(cuò)，一直到6月份都沒有留給Target什么市場份額。Target不知道原因，錯(cuò)誤地認(rèn)為在加州花園物品這塊沒錢可賺。

你如何處理該問題?即使Target可能缺乏2月份的花園物品銷售數(shù)據(jù)，但可以查看競爭對手的數(shù)據(jù)(例如，瀏覽和分析每天發(fā)送的數(shù)百萬封垃圾郵件)，這是正確方向上良好的第一步。但真正的解決方案是雇用一位有遠(yuǎn)見的數(shù)據(jù)科學(xué)家。有才華的數(shù)據(jù)科學(xué)家利用每個(gè)人都能看到的數(shù)據(jù);有遠(yuǎn)見的數(shù)據(jù)科學(xué)家利用沒人看到的數(shù)據(jù)。

情景7：汽油中的鉛會(huì)導(dǎo)致高犯罪率。真的嗎

這種典型的分析和觀點(diǎn)可能在受尊敬的新聞媒體上出現(xiàn)過，然而這種分析不足以支持作者的觀點(diǎn)。根據(jù)Rick Nevin的計(jì)量經(jīng)濟(jì)學(xué)的研究，禁用含鉛汽油約20年后，(汽油使用量高的)大城市的犯罪率達(dá)到高峰。20年的滯后是嬰兒受鉛影響到成為20歲罪犯所經(jīng)歷的時(shí)間。至少這是一些著名的計(jì)量經(jīng)濟(jì)學(xué)家基于過去大城市歷年犯罪率的分析而提出的論點(diǎn)。但這又是一個(gè)缺乏適當(dāng)?shù)膶?shí)驗(yàn)設(shè)計(jì)的例子。

那么，如何設(shè)計(jì)一個(gè)更好的研究呢?我們可以得到過去30年間所有特定規(guī)模的城市1萬人的均衡樣本，樣本分成兩個(gè)子集(罪犯和非罪犯)，并檢查(使用比率)罪犯是否比非罪犯在出生時(shí)更容易受鉛影響?？傊?，要跟之前的研究相反，要針對個(gè)體而不是城市——也就是看微觀層面，而不是宏觀層面——并進(jìn)行經(jīng)典的假設(shè)檢驗(yàn)，使用標(biāo)準(zhǔn)抽樣和適當(dāng)?shù)膶?shí)驗(yàn)程序設(shè)計(jì)。

或者，如果你真的想研究原有的宏觀時(shí)間序列(假設(shè)數(shù)據(jù)粒度細(xì)到每月)，那可以進(jìn)行Granger因果關(guān)系檢驗(yàn)，這樣會(huì)考慮原始時(shí)間序列轉(zhuǎn)為白噪聲后的所有互相關(guān)系的殘差(類似于時(shí)間序列的頻譜分析或相關(guān)圖分析)。然而，如果你有幾千個(gè)指標(biāo)(因此會(huì)有幾千個(gè)時(shí)間序列和幾百萬個(gè)相關(guān)性)，你最終會(huì)發(fā)現(xiàn)非常高的相關(guān)性純屬意外。這被稱為大數(shù)據(jù)的“詛咒”，在第2章中會(huì)對此詳細(xì)描述。

相關(guān)性不是因果關(guān)系。不要輕易聲稱是因果關(guān)系，除非你能證明它。很多時(shí)候，多個(gè)相互依賴的因素會(huì)對同一問題產(chǎn)生影響。當(dāng)嬰兒潮一代(不太守法的一代)20歲時(shí)，也許正是犯罪發(fā)生高峰期。這可能是一個(gè)更可信的原因。

情景8：波音787(夢幻客機(jī))問題

波音公司的夢幻客機(jī)推出幾個(gè)月后不久，由于其電池相關(guān)問題，被FAA(聯(lián)邦航空局)禁飛。主要的問題是其使用了從未在飛機(jī)上使用過的一種新型鋰電池。這種強(qiáng)大的電池容易過熱和著火，導(dǎo)致短時(shí)間內(nèi)多次緊急著陸。

根本原因是設(shè)計(jì)電池的供應(yīng)商缺少良好的實(shí)驗(yàn)設(shè)計(jì)。這是一個(gè)質(zhì)量控制問題，而質(zhì)量控制在很大程度上依賴于分析。以下的一些提問證明了更好的質(zhì)量控制和實(shí)驗(yàn)設(shè)計(jì)可以解決電池問題。

這些電池(就像其他很多可以購買到的產(chǎn)品的電池，如汽車或筆記本電腦的電池)難道不能經(jīng)過深入的質(zhì)量控制檢測，采用健全的統(tǒng)計(jì)技術(shù)，確保電池次品率或生命周期內(nèi)產(chǎn)品的失敗風(fēng)險(xiǎn)低于可接受的閾值嗎?

會(huì)不會(huì)是質(zhì)量控制測試沒有根據(jù)最佳實(shí)踐進(jìn)行?

過熱模擬能代表現(xiàn)實(shí)世界飛機(jī)起飛時(shí)的情況嗎?

“壓力”測試電池的時(shí)間夠不夠長?

是不是日本的質(zhì)量控制標(biāo)準(zhǔn)更低?因?yàn)檫@些電池的設(shè)計(jì)和生產(chǎn)是在日本進(jìn)行的。

這些電池的可靠性統(tǒng)計(jì)報(bào)告是錯(cuò)誤的嗎?

一種可能的解決方案是使用更好的機(jī)制來冷卻這種類型的電池，但在飛機(jī)上從來沒有使用過這種方法，不過，過去手機(jī)就因?yàn)檫^熱而發(fā)生過火災(zāi)，所以現(xiàn)在所有手機(jī)中都使用冷卻手段。與手機(jī)或筆記本電腦不同的是，在一架飛機(jī)上，因?yàn)橥饨鐪囟冗h(yuǎn)低于冰點(diǎn)，所以很容易冷卻(甚至是冷凍)。

情景9：NLP的7個(gè)棘手句子

NLP是指自然語言處理。當(dāng)數(shù)據(jù)科學(xué)家分析非結(jié)構(gòu)化的數(shù)據(jù)時(shí)，如原始(未分類)文本，將會(huì)面臨這類問題，所以我們在此將對該類問題進(jìn)行說明。這類分析叫作文本挖掘。

以下7種類型的語言模式，很難用自動(dòng)化算法進(jìn)行分析。

“A land of milk and honey”變成“A land of Milken Honey” (這是針對 The Wall Street Journal 20世紀(jì)80年代以來的語料訓(xùn)練而形成的算法，該語料里Michael Milken 提到的次數(shù)比 milk 多)。

“She threw up her dinner”與“She threw up her hands”對比。

“I ate a tomato with salt”與“I ate a tomato with my mother”或“I ate a tomato with a fork”對比。

以“ing”結(jié)尾的單詞——例如，“They were entertaining people”。

“He washed and dried the dishes”與“He drank and smoked cigars”對比(在后面的情況下，他沒有“喝”香煙)。

“The lamb was ready to eat”與“Was the lamb hungry and wanting some grass?”對比。

具有多重含義的詞，如“bay”，可能是一種顏色，或者窗戶類型，或者海灣。

在這些例子中，或者在情感分析中，數(shù)據(jù)科學(xué)家試圖猜測用戶意圖，以便正確地解讀數(shù)據(jù)，得到正確的答案或決策。例如，這可能會(huì)在以下情況中發(fā)生。

在分析谷歌搜索數(shù)據(jù)時(shí)，根據(jù)用戶查詢應(yīng)該顯示哪些相關(guān)廣告?

對于發(fā)布在 Facebook 網(wǎng)頁上關(guān)于產(chǎn)品或公司的評論，如何分析評估它們是正面的還是負(fù)面的?

在分析 Facebook 的帖子時(shí)，如何判定一個(gè)帖子是不是因?yàn)檫`反了 Facebook 的政策或法律而應(yīng)該被自動(dòng)刪除?

用戶畫像(如果可用)指標(biāo)，或網(wǎng)頁和電子郵件內(nèi)容(特別是如果網(wǎng)頁已經(jīng)分類了)，可以幫助解決歧義。

情景10：數(shù)據(jù)科學(xué)家決定著我們所吃的食品

影響美國人吃什么的因素有很多，但最大的因素是食品雜貨店的利潤率。這解釋了為什么我們買不到紅醋栗或百香果，但可以買到高能量飲料和富含糖分的食物。當(dāng)然，這有一個(gè)反饋循環(huán)：美國人喜歡甜食，所以許多公司生產(chǎn)甜的食品，并且由于大規(guī)模生產(chǎn)，所以價(jià)格便宜，因此食品雜貨店可以有效定價(jià)，銷售量也好。

這也說明超市可以通過更好的分析來增加收入。這一切的背后都是數(shù)據(jù)科學(xué)，數(shù)據(jù)科學(xué)有助于回答以下問題。

為了客戶利益和投資回報(bào)率(ROI)，應(yīng)該嘗試去賣哪些新產(chǎn)品?紅醋栗派?橘子酒?法國風(fēng)味的櫻桃派?野豬肉?紫薯奶酪?紅雞蛋?球狀奶酪?(雖然球形不像平行的方形管道形狀，從存儲(chǔ)的角度來看不是最優(yōu)的，但這是另一個(gè)數(shù)據(jù)科學(xué)問題。)

你如何確定一個(gè)新產(chǎn)品的成功或失敗?你如何測試一個(gè)新產(chǎn)品(實(shí)驗(yàn)設(shè)計(jì)問題)?

哪些產(chǎn)品應(yīng)該被淘汰?(美國的大多數(shù)雜貨店將不再出售百香果、百香果汁和正宗的意大利香腸。)

如何度量提升力(收入增長)?你有考慮營銷費(fèi)用和其他費(fèi)用等因素嗎?

如何給一件商品定價(jià)?

如何進(jìn)行交叉銷售?

在營銷活動(dòng)中，如何優(yōu)化投資回報(bào)率?

什么時(shí)候及在哪里銷售哪種產(chǎn)品(根據(jù)季節(jié)性和地方性趨勢)?

如何改進(jìn)庫存預(yù)測?

上次我去一家雜貨店，購買全脂無糖酸奶。我在商店里找了10分鐘，只找到最后的一盒(品牌是Dannon)。我已經(jīng)準(zhǔn)備多花點(diǎn)錢購買這種酸奶(世界上數(shù)十億人消費(fèi)了幾千年的產(chǎn)品)，而不是另兩種選擇：低脂肪，或原味帶甜的酸奶。(諷刺的是，這種“低脂肪”版本含有180卡路里，而以前普通的酸奶只含有150卡路里。這是因?yàn)榈椭镜漠a(chǎn)品中有玉米淀粉。)

隨著時(shí)間的推移，我發(fā)現(xiàn)雜貨鋪供應(yīng)的產(chǎn)品數(shù)量正在減少。很多舊產(chǎn)品被淘汰，引入了一些新產(chǎn)品。顯然，這些被淘汰的產(chǎn)品市場較小，如百香果。但是，數(shù)據(jù)科學(xué)能不能更好地幫助食品雜貨零售商決定上架的商品，決定何時(shí)及在哪里銷售，并以多少比例和什么價(jià)格銷售呢?

答案是肯定的。一個(gè)好的解決方案是，借助具有較高預(yù)測能力的模型，在預(yù)測銷售量和(每種產(chǎn)品)收入時(shí)，顆粒度更精細(xì)，方差更小。在這種情況下，雖然很多人盡量避免有脂酸奶，但在西部和東部沿海地區(qū)有很多較瘦的人不介意喝原味酸奶。因此，在西雅圖或波士頓可以銷售原味酸奶(也許僅僅是幾十盒高價(jià)的產(chǎn)品，放置在低價(jià)低脂品牌旁)，但在堪薩斯市則銷售不了。

這也為專用雜貨店創(chuàng)造了新的機(jī)會(huì)，如在美國西北部的PCC自然品市場，賣的正是其他超市已經(jīng)停止出售的產(chǎn)品(只要是暢銷的)?？傊卿N售能產(chǎn)生利潤但其他超市已經(jīng)不再銷售的產(chǎn)品。

這個(gè)例子也說明了，對于數(shù)據(jù)科學(xué)家，溝通技巧是很重要的：提出了一種新方法，并說服高管使用這種方法，可以同時(shí)優(yōu)化利潤，且給客戶帶來長遠(yuǎn)的價(jià)值。當(dāng)然，這樣的做法將是一個(gè)長期的戰(zhàn)略投資，在短期內(nèi)可能無法滿足財(cái)務(wù)上的數(shù)字(公司的首席執(zhí)行官需要和股東說明)。

情景11：用較好的相關(guān)性增加亞馬遜的銷售量

亞馬遜是如何通過重新定義相關(guān)性來增加銷售量的?答案：通過改進(jìn)其搜索和相關(guān)性引擎，把物品價(jià)格當(dāng)作主要的相關(guān)因素。這里所描述的優(yōu)化和提升投資回報(bào)率的做法，適用于所有的數(shù)字化產(chǎn)品類別，雖然在本書中我們只針對書籍這個(gè)類目進(jìn)行了討論。

1搜索引擎

當(dāng)你在亞馬遜網(wǎng)站上的購書欄搜索關(guān)鍵詞時(shí)，返回的搜索結(jié)果頁面，有10本推薦的書與你的關(guān)鍵詞匹配。這是由搜索引擎執(zhí)行的。搜索引擎會(huì)以某種排序顯示圖書。該排序是基于價(jià)格或關(guān)鍵詞相似度的。

2相關(guān)性引擎

如果你搜索一個(gè)特定的書名，亞馬遜還會(huì)基于其他用戶的購買記錄，顯示你可能感興趣的其他的書。這項(xiàng)任務(wù)是由相關(guān)性引擎執(zhí)行的。

技術(shù)講義

相關(guān)性引擎的工作原理是這樣的：如果有m(A,B) 個(gè)用戶在過去30天內(nèi)都購買了A書(是你想要購買的書)和B書，而k(A)代表購買A書的用戶數(shù)，k(B)代表購買B書的用戶數(shù)，那將A和B之間的關(guān)聯(lián)(從交叉銷售的角度，這些書的關(guān)聯(lián)程度)定義為R(A,B)=m(A,B)/SQRT{k(A)*k(B)}。所推薦的書籍排序完全由函數(shù)R(A,*)決定。

3更好的排序標(biāo)準(zhǔn)

昂貴的圖書將產(chǎn)生很少的銷售量，但有巨大的利潤。廉價(jià)的圖書利潤較少，但銷售數(shù)量能彌補(bǔ)每本書的利潤?？傊?，如果顯示的書都跟用戶的相關(guān)性評分相同，那么在#1位置顯示的書的定價(jià)應(yīng)使得預(yù)期總收益最優(yōu)。圖1-1顯示了一個(gè)假想的最優(yōu)圖書定價(jià)是21美元。

此圖基于模擬的數(shù)字，假設(shè)書售出的機(jī)會(huì)是圖書定價(jià)的指數(shù)遞減函數(shù)。也就是：

P(sale | price) = a * exp(-b*price)

其中sale為銷售量，price為售價(jià)。一個(gè)更一般的模型是：

P(sale | price, relevancy score) = a * exp(-b*price) * f(relevancy score)

其中relevency score為相關(guān)性評分。

另一種能進(jìn)一步增加收入的方式是，將用戶數(shù)據(jù)也包含在公式中。一些用戶有能力購買一本昂貴的書。對于經(jīng)常購買更昂貴圖書的用戶，應(yīng)該在他們的搜索結(jié)果中，顯示更昂貴的書籍。

4把所有東西放在一起

當(dāng)銷售產(chǎn)生時(shí)，我們怎么知道，是因?yàn)榘颜_定價(jià)的書籍顯示在了頂部，還是因?yàn)橥昝赖南嚓P(guān)性?例如，“數(shù)據(jù)科學(xué)”和“大數(shù)據(jù)”之間的關(guān)聯(lián)性很強(qiáng)，但“數(shù)據(jù)科學(xué)”和“云計(jì)算”之間的關(guān)聯(lián)性不是很強(qiáng)。如果你的目標(biāo)是利潤最大化的話，那么是把一本昂貴的“云計(jì)算”書推薦給一位對“數(shù)據(jù)科學(xué)”感興趣的富人，或者給他推薦一本不太貴的與“大數(shù)據(jù)”相關(guān)的書，哪種做法明智?這也取決于你如何定義收入優(yōu)化：是長期(關(guān)聯(lián)性更重要)或短期，還是短期和長期的混合。正如你所看到的，從價(jià)格因素中分離出關(guān)聯(lián)性影響是不容易的。

當(dāng)關(guān)鍵詞或類別的相關(guān)性是基于“小數(shù)據(jù)”的(指專門的用戶查詢或銷售量小的書籍)，價(jià)格因素特別有效。此外，檢測到底是什么帶來特定的轉(zhuǎn)化或銷售，是一個(gè)復(fù)雜的問題，這被稱為歸因。在復(fù)雜的情形下，宏觀經(jīng)濟(jì)(長期，總量的)指標(biāo)，混合了非常細(xì)粒度的實(shí)時(shí)屬性指標(biāo)，可用于營銷組合優(yōu)化。使用價(jià)格彈性模型和效率曲線也可進(jìn)行價(jià)格分析。

另一個(gè)有意思的領(lǐng)域是自定義定價(jià)，實(shí)時(shí)地根據(jù)客戶、客戶的購買記錄(如果可用)、銷售該書的網(wǎng)站(根據(jù)網(wǎng)站的統(tǒng)計(jì)數(shù)據(jù))和書本身來確定書價(jià)。一些研究表明，一個(gè)固定的價(jià)格是最好的，否則精明的用戶會(huì)嘗試多次購買相同的項(xiàng)目，直到他們得到可能最低的價(jià)格(雖然他們沒有辦法知道什么時(shí)候價(jià)格最低)。然而，向那些不介意購買昂貴圖書的用戶銷售高價(jià)圖書(根據(jù)他們的購買歷史)，而不是推薦用戶已經(jīng)購買過的書，是改善投資回報(bào)率最容易的方法。然而，在一些國家，這種定價(jià)策略已經(jīng)被禁止，在其他一些地方也有爭議。特別要注意，如果定制化價(jià)格是悄悄執(zhí)行，沒有被用戶了解和同意，還采用不道德的數(shù)據(jù)挖掘的做法并侵犯隱私的話，可能會(huì)導(dǎo)致用戶對你信任下降，并最終導(dǎo)致客戶流失、法律訴訟和收入下降。最終，用戶會(huì)注意到價(jià)格是定制的。

另一種最大限度地提高亞馬遜的利潤的方法，是按需求印刷書籍，而不是管理庫存、每月預(yù)測每本書的銷量。數(shù)據(jù)科學(xué)還有助于確定倉庫位置，以優(yōu)化交付效果(在速度和成本方面)，以及銷售稅的優(yōu)化，從而更好地與其他書商競爭。

情景12：檢測Facebook上的假檔案或假“喜歡”數(shù)

某些網(wǎng)站出售假Twitter粉絲(1 000個(gè)粉絲10美金)、假的Facebook賬號，或甚至假的雅虎郵件賬號，用來傳播垃圾郵件，提升個(gè)人或零售商人氣，據(jù)說還可以用來促進(jìn)銷售。他們預(yù)先告訴買家，這些粉絲是假冒的。他們也在網(wǎng)上賣在Facebook點(diǎn)的“喜歡”數(shù)，并且他們聲稱“喜歡”數(shù)是來自“真正的”Facebook用戶。

自動(dòng)檢測假“喜歡”數(shù)最簡單的方法是看相關(guān)評論數(shù)：如果一個(gè)Facebook(或任何)帖子后有5000個(gè)“喜歡”數(shù)，但沒有評論或只有20條評論，并且評論內(nèi)容都類似于“這是個(gè)很棒的帖子”，那就可以確定“喜歡”數(shù)和評論是機(jī)器人或水軍造假的。

數(shù)據(jù)科學(xué)算法就是根據(jù)這樣的指標(biāo)，以及社交網(wǎng)絡(luò)圖、變化速度、近期賬戶創(chuàng)建和發(fā)布情況、自然語言處理和僵尸網(wǎng)絡(luò)/欺詐檢測規(guī)則來處理問題的。一些造假可以實(shí)時(shí)檢測到，而一些會(huì)稍后檢測和消除掉，比如通過臨時(shí)分析(數(shù)據(jù)分析師執(zhí)行的反應(yīng)式分析)或一天結(jié)束后的算法自動(dòng)分析(慣例分析)。

情景13：餐廳的分析

對于小企業(yè)，特別是餐館，分析可以有很多種形式。這些企業(yè)需要解決的問題包括定價(jià)優(yōu)化、庫存管理、銷售預(yù)測、獲取競爭對手的信息、客戶對你的建議(比如需要使用一些自動(dòng)化軟件定期檢查客戶對餐廳的評論)、空間優(yōu)化(餐廳最多可以放多少張桌子)、葡萄酒和奶酪的選擇、菜單變化的頻率、每天和每月的開業(yè)和歇業(yè)時(shí)間、維持的廚師數(shù)量(包括決定最佳薪酬)。

可能最容易解決的問題之一是桌子的布局。最佳的解決方案是讓2個(gè)座位的桌子靠在墻邊，4個(gè)座位的桌子在房間的中央。這些桌子應(yīng)該是圓形的還是正方形的，平行于墻壁或形成一個(gè)45°角?很容易找到一個(gè)數(shù)學(xué)解決方案，或者至少做一些模擬，找出哪種最有效。正方形的桌子比圓形的好，可以輕松地組合起來，適應(yīng)更大的派對。假設(shè)餐廳總是被預(yù)訂滿并贏利，如果你增加20%的座位容量，那么你的利潤也應(yīng)該增加20%。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報(bào)名CDA認(rèn)證考試，點(diǎn)擊>>> “CDA報(bào)名” 了解CDA考試詳情；