
13個(gè)真實(shí)世界情景中的數(shù)據(jù)科學(xué)應(yīng)用
現(xiàn)在讓我們看看13個(gè)在真實(shí)世界情景下的例子,了解現(xiàn)代數(shù)據(jù)科學(xué)家可以幫助我們做些什么。這些例子將有助于你學(xué)習(xí)如何專注于一個(gè)問題和如何形式化一個(gè)問題,以及如何仔細(xì)評估所有潛在問題——總之,是學(xué)習(xí)數(shù)據(jù)科學(xué)家在提出解決方案之前,如何定位問題和進(jìn)行戰(zhàn)略性思考。你也會(huì)看到為什么一些廣泛使用的技術(shù),如標(biāo)準(zhǔn)回歸,可能并不適合所有情況。
數(shù)據(jù)科學(xué)家的思維方式不同于工程師、運(yùn)籌學(xué)專業(yè)人士、計(jì)算機(jī)科學(xué)家。雖然運(yùn)籌學(xué)涉及很多分析,但這一領(lǐng)域的焦點(diǎn)是具體業(yè)務(wù)優(yōu)化層面,如庫存管理和質(zhì)量控制。運(yùn)籌學(xué)涉及國防、經(jīng)濟(jì)、工程、軍事等領(lǐng)域。它采用馬爾可夫模型、蒙特卡洛模擬、排隊(duì)論、隨機(jī)過程,以及(由于歷史原因)Matlab和Informatica工具。
數(shù)據(jù)科學(xué)會(huì)遇到兩種基本類型的問題。
1.內(nèi)部數(shù)據(jù)科學(xué)問題,如損壞的數(shù)據(jù)、粗心的分析或使用不恰當(dāng)?shù)募夹g(shù)。內(nèi)部問題不是針對業(yè)務(wù)而言,而是針對數(shù)據(jù)科學(xué)社區(qū)。因此,解決辦法包括訓(xùn)練數(shù)據(jù)科學(xué)家更好地工作,要他們遵循最佳做法。
2.業(yè)務(wù)應(yīng)用問題是現(xiàn)實(shí)世界中的問題,因此要尋求解決方案,如欺詐檢測,或識別一個(gè)因素是原因還是結(jié)果。這些可能涉及內(nèi)部或外部(第三方)數(shù)據(jù)。
情景1:國家對烈性酒銷售的壟斷結(jié)束后,DUI(酒后駕駛)逮捕量減少
最近發(fā)表在MyNorthWest報(bào)紙上的一篇文章,說到一年前在華盛頓州實(shí)施的一條新法律,允許雜貨店銷售烈性酒類。這里的問題是如何評估和解釋在法律生效后,酒后駕車者的逮捕量下降。
作為一個(gè)數(shù)據(jù)科學(xué)家,你首先需要制定一個(gè)可能解釋逮捕量下降的原因列表(通過與客戶或老板的討論)。然后設(shè)計(jì)一個(gè)方案,排除其中的一些原因,或?yàn)槊總€(gè)原因附上正確的權(quán)重,或簡化結(jié)論,判定這個(gè)問題除非有更多的數(shù)據(jù)或信息可以使用,否則沒法回答。
以下是15個(gè)可能原因,以及跟酒后駕車逮捕率報(bào)告存在悖論的問題。你當(dāng)然可以想出更多的理由。
在數(shù)據(jù)收集過程中有差錯(cuò)(數(shù)據(jù)是錯(cuò)誤的)。
這篇文章的作者,可能與別人有利益沖突、想推銷特定的觀點(diǎn),或是出于政治動(dòng)機(jī)。也許只是一個(gè)大膽的謊言。
之所以酒后駕駛被逮捕的人數(shù)變少,也許是因?yàn)榫斓娜耸稚倭恕?
在這一時(shí)期內(nèi),其他犯罪率也有所下降,這是犯罪率總體下降趨勢的一部分。若沒有這條新法律,酒后駕駛的逮捕量會(huì)不會(huì)下降更多?
缺乏統(tǒng)計(jì)顯著性。
存在其他更為嚴(yán)厲的刑罰,阻止了酒后駕車行為。
年紀(jì)大的酒客多,因?yàn)樗麄円呀?jīng)肇事死亡,所以逮捕量下降。
總?cè)丝谠黾?,但喝酒的人?shù)減少,因?yàn)橐泼衤矢叩氖侵袊撕陀《热?,但他們中喝酒的人?shù)比例遠(yuǎn)遠(yuǎn)低于其他人口群體。
酒后駕車逮捕量統(tǒng)計(jì)口徑是針對華盛頓居民,還是非居民的?
這一法律沒有效果,在此之前,人們也可以從華盛頓的雜貨店買酒(除了烈性酒)。
(可能是因?yàn)樵黾恿硕愂?,酒價(jià)升高,導(dǎo)致酒精消費(fèi)減少(盡管酒精和煙草消費(fèi)對價(jià)格彈性變化有抵抗力)。
人們現(xiàn)在開車到更近的地方就能買到烈性酒,因此,喝烈性酒駕駛而被逮捕的人變少了。
所有酒后駕駛逮捕量都下降,還是僅僅喝烈性酒的酒后駕駛逮捕量下降才如此?
一般來說,如果人們開車次數(shù)減少了,無論對飲酒者還是非飲酒者來說,那么可能的原因就是汽油價(jià)格上漲了。
要評估這個(gè)新法律的影響,有一個(gè)更好的指標(biāo)是華盛頓居民的酒類(特別是烈性酒)的總消費(fèi)量。
數(shù)據(jù)科學(xué)家必須選擇正確的方法來評估新法律的影響,并想出如何獲得評估所需數(shù)據(jù)的方法。實(shí)際上,逮捕量減少的真正原因是,喝烈性酒者可以開車在很短的距離內(nèi)就能買到烈性酒。對華盛頓州來說,問題在于判斷該法律能否減少因酒精消費(fèi)而產(chǎn)生的社會(huì)問題代價(jià)(是否會(huì)增加酒精銷售的稅收、裁減州內(nèi)商店的員工,使酒精相關(guān)的犯罪率維持適度水平或完全消失等)。
情景2:數(shù)據(jù)科學(xué)與直覺
在管理層圈子里,許多決定仍然依靠直覺。然而,正如這個(gè)例子所示,數(shù)據(jù)科學(xué)和統(tǒng)計(jì)分析結(jié)果優(yōu)于直覺,讓你不至于憑直覺而形成錯(cuò)誤的結(jié)論。
雙數(shù)據(jù)點(diǎn)是指幾乎相同的觀測值。在許多不同類型的數(shù)據(jù)集中,這種情況經(jīng)常出現(xiàn),而非特例。在任何有300多行數(shù)據(jù)的二維或三維的數(shù)據(jù)集中,如果數(shù)據(jù)是定量的,并均勻地分布在一個(gè)有界空間中,你應(yīng)該會(huì)看到大比例(大于 15%)的數(shù)據(jù)點(diǎn)都有一個(gè)近鄰。
這適用于所有數(shù)據(jù)集,但這一發(fā)現(xiàn)首先是從星系照片里發(fā)現(xiàn)的。星系照片里有很多雙星,你可能會(huì)直覺地認(rèn)為,有一些內(nèi)在原因使得星星成對地聚集在一起。但是,如果你知道純概率,你會(huì)發(fā)現(xiàn),即使沒有任何外部機(jī)制推動(dòng),15%的星星也會(huì)屬于雙星系統(tǒng)。
例如,我們可以考慮一個(gè)包含500顆星星的星系。計(jì)算這些星星構(gòu)成雙星系統(tǒng)的純概率,結(jié)果如下。
至少有60顆(12%)星星屬于雙星系統(tǒng)的概率為85%。
至少有80顆(16%)星星屬于雙星系統(tǒng)的概率為18%。
至少有100顆(20%)星星屬于雙星系統(tǒng)的概率(幾乎)為0%。
然而,在現(xiàn)實(shí)中,超過80%的星星都屬于雙星系統(tǒng)。概率統(tǒng)計(jì)不支持這個(gè)數(shù)字;因此,很明顯有一些機(jī)制使得星星成對聚集。
該問題提供了一個(gè)很好的、可以測試你分析直覺的機(jī)會(huì)。看看圖表里的雙生觀測值,然后目測評估下雙生觀測值是自然的(隨機(jī))還是非自然的(數(shù)量太多或太少)??梢詫懸欢未a當(dāng)作練習(xí)(Python、Perl、R代碼),進(jìn)行模擬(包括更復(fù)雜的三維情況),檢查下理論結(jié)果,并比較一下R、Perl、Python的速度差異。
技術(shù)講義
假設(shè),有一張10cm×10cm的夜空圖,其有大約n=500個(gè)可見的星星(數(shù)據(jù)點(diǎn)),而雙星定義是一顆星星和鄰近的星星距離是1mm(或更短)。如果恒星是完美隨機(jī)分布的,則500顆恒星中,位于雙星系統(tǒng)中的星星數(shù)量將是73顆(平均而言)。這個(gè)數(shù)字遠(yuǎn)遠(yuǎn)高于大多數(shù)人所認(rèn)為的數(shù)字。這一比例可以表示為p,因此p=14.5%,在500顆恒星中,預(yù)計(jì)位于雙星系統(tǒng)中的星星數(shù)量為n*p=73。
在這種情況下,可以用Poisson過程的理論來計(jì)算該概率。如果500個(gè)點(diǎn)分布在一個(gè)100mm×100mm的區(qū)域(一個(gè)放大的夜空圖),則Poisson過程的強(qiáng)度L是每平方毫米面積內(nèi)點(diǎn)的數(shù)量,即L=500/(100mm×100mm)=0.05/mm2。
在1 mm距離之內(nèi)一顆星星至少有一個(gè)鄰近點(diǎn)的概率p為1-Proba(0個(gè)鄰近點(diǎn))=1-exp(-L*Pi*r2),其中r=1mm,Pi=3.14。這里Pi*r2是一個(gè)半徑為1mm的圓的面積。指數(shù)項(xiàng)是一個(gè)Poisson過程,在一個(gè)給定的集合里(圓、矩形等),點(diǎn)的數(shù)目有一個(gè)均值為L*Area的Poisson分布。因此p=0.145。
所以是否屬于雙星,是一個(gè)參數(shù)p=0.145的伯努利(1/0)變量。V可以表示位于雙星系統(tǒng)中的星星數(shù)目:V是參數(shù)p的n個(gè)伯努利變量的總和,因而是參數(shù)為n、p的二項(xiàng)式分布,而normal(0,1)分布跟標(biāo)準(zhǔn)化變量Z=(V-np)/SQRT{np(1-p)}的值非常近似。這個(gè)事實(shí)可以用來計(jì)算前面所說的概率。
替代計(jì)算:使用蒙特卡洛模擬,而不是使用理論模型,來計(jì)算這些概率,也可以得到相同的結(jié)果。這將涉及生成100萬個(gè)模擬圖像(二維數(shù)據(jù)表),并在每個(gè)模擬圖像里,計(jì)算屬于雙星系統(tǒng)的星星數(shù)目。使用現(xiàn)代計(jì)算機(jī)、良好的隨機(jī)數(shù)生成器和智能算法,這項(xiàng)任務(wù)可以在幾分鐘內(nèi)自動(dòng)化進(jìn)行。
如果你使用樸素的做法,則該模擬過程可能是緩慢的。但計(jì)算n個(gè)距離,找最近的星星時(shí),計(jì)算復(fù)雜度可以做得比O(n2)好得多。具體做法是將數(shù)據(jù)存儲(chǔ)在一個(gè)間隔為1mm的網(wǎng)格中(即,一個(gè)有100′100=10 000個(gè)單元格的二維數(shù)組)。因此,對于每一顆星星,你只需查看周圍的8個(gè)像素,來計(jì)算不到1mm距離的鄰近點(diǎn)的數(shù)目。通過使用1萬個(gè)1比特(代表存在/不存在)存儲(chǔ)單元,可以把O(n2)的復(fù)雜度降低到O(n)。
請注意,選100萬或1萬是隨意的,實(shí)際只需足夠大的數(shù)字,保證所估計(jì)的結(jié)果足夠穩(wěn)定即可,數(shù)字若再大則不會(huì)帶來更準(zhǔn)確的結(jié)果。選擇合適的樣本和樣本大小是一個(gè)實(shí)驗(yàn)設(shè)計(jì)問題,并且使用無模型的置信區(qū)間有利于這項(xiàng)任務(wù)的開展,也保證結(jié)果穩(wěn)健。這種蒙特卡洛模擬方法較受運(yùn)籌學(xué)專業(yè)人士的青睞,一些數(shù)據(jù)科學(xué)家、計(jì)算機(jī)科學(xué)家、喜歡無模型統(tǒng)計(jì)建模的軟件工程師們也較鐘愛。然而,在這個(gè)案例里,理論模型眾所周知,也很簡單(即使不是很基礎(chǔ)),也能快速而簡捷地得到答案。所以,除非你必須花很多時(shí)間才能理解它的原理,否則還是建議尋找理論解決方案。
附加說明:在這個(gè)例子中,星星顯示在二維屏幕上。在現(xiàn)實(shí)中,它們存在于三維空間中。從X坐標(biāo)和Y坐標(biāo)來看兩顆星星可能是鄰近的,但在Z軸上它們可能是永久分開的。所以要計(jì)算出雙星的真實(shí)比例期望值,你就得模擬三維空間里的星星(點(diǎn)),投影到矩形內(nèi)計(jì)算出雙星的比例。在這種情況下,我不確定該理論模型是否是簡單的解決方案,但蒙特卡洛模擬仍然是簡單的。在實(shí)踐中,實(shí)際上遙遠(yuǎn)的恒星不夠明亮而不能顯示在圖片上,所以二維模型確實(shí)是對真實(shí)的三維問題很好的近似。
此外,在理論模型中,關(guān)于星星的位置有一些隱含的獨(dú)立性的假設(shè)(當(dāng)提到二項(xiàng)式模型時(shí)),但這不是實(shí)際情況,因?yàn)樾切侵車?mm直徑范圍內(nèi)有時(shí)會(huì)重疊。但這種近似依然不錯(cuò),并且是保守估計(jì)的。而理論上的數(shù)字,如果排除重疊,肯定要高于73。
情景3:數(shù)據(jù)故障將數(shù)據(jù)變成亂碼
在數(shù)據(jù)導(dǎo)入或?qū)С龅倪^程中,有許多出差錯(cuò)的例子。這通常是架構(gòu)較差的結(jié)果,或者使用了錯(cuò)誤的工具,或者盲目依賴工具而不進(jìn)行數(shù)據(jù)質(zhì)量檢查的原因。數(shù)據(jù)科學(xué)家如何檢測和解決這個(gè)問題?
Microsoft Access有時(shí)不能正確導(dǎo)入或?qū)С鰯?shù)據(jù)類型,使數(shù)據(jù)庫表自動(dòng)甚至是強(qiáng)迫類型轉(zhuǎn)換,輸出文本或CSV文件(或其他格式),結(jié)果較差,容易導(dǎo)致許多錯(cuò)誤。這種情況發(fā)生,是因?yàn)榄h(huán)境不夠靈活,從而不能進(jìn)行智能的類型檢測并進(jìn)行類型轉(zhuǎn)換。例如,你是否處理過以下情況,一行日期數(shù)據(jù)被記錄為整數(shù),另一行卻被記錄為mmddyy格式(月、日、年格式,比如2016年10月5日記為100516)?或者是你不得不處理數(shù)據(jù)字段值內(nèi)的逗號,因?yàn)檫@會(huì)搞砸你的CSV文件?
我收到過許多數(shù)據(jù)文件,損壞率達(dá)到5%以上。有時(shí)兩種不同類型的值(廣告主關(guān)鍵詞與用戶查詢,或來源域名與廣告網(wǎng)絡(luò)域名)存儲(chǔ)在同一字段中。有時(shí)字段沒有正確對齊。有時(shí)看起來制作數(shù)據(jù)的人不是使用正則表達(dá)式的專家,或是總是錯(cuò)誤地使用分隔符。有時(shí)則是因?yàn)檐浖咽虑楦阍懔恕?
有時(shí)這些差錯(cuò)有不良的副作用,比如你的數(shù)據(jù)庫里有一個(gè)非真實(shí)的用戶ID,成為所有沒有ID的用戶的垃圾收集器,導(dǎo)致分析數(shù)據(jù)時(shí)有缺陷。但在其他時(shí)候不是個(gè)大問題。
以下幾個(gè)例子是講混亂的數(shù)據(jù)、混亂的格式和不完整的數(shù)據(jù)整合如何導(dǎo)致嚴(yán)重的錯(cuò)誤,以及如何解決這些問題。
Wells Fargo(美國富國銀行):IBM Tealeaf用戶的會(huì)話被分解成多個(gè)會(huì)話,因?yàn)槊總€(gè)服務(wù)器都有自己的網(wǎng)絡(luò)日志,而這些日志并沒有被正確混合。這種情況下主要是架構(gòu)設(shè)計(jì)造成的問題。幸運(yùn)的是,發(fā)現(xiàn)和解決這個(gè)問題能幫助我們形成對該類問題的洞察力。
eBay(易貝):數(shù)據(jù)傳輸過程中把法語和德語關(guān)鍵詞的特殊字符刪除了,造成了數(shù)據(jù)不一致性。通過建立臨時(shí)的外鍵查找表,讓正確的和錯(cuò)誤的拼寫對應(yīng),從而可以解決數(shù)據(jù)不一致的問題。
點(diǎn)擊欺詐檢測:關(guān)鍵詞字段有時(shí)代表用戶查詢(如谷歌查詢),有時(shí)是一個(gè)預(yù)先指定的關(guān)鍵詞類別,這取決于廣告網(wǎng)絡(luò)聯(lián)盟公司的種類。如果相關(guān)公司的關(guān)鍵詞是屬于關(guān)鍵詞類別的,我們會(huì)施加一個(gè)較大的錯(cuò)誤懲罰值,這是因?yàn)?出于設(shè)計(jì)而非欺詐的原因)這種關(guān)鍵詞的分布很差。添加一個(gè)指定關(guān)鍵詞類型的新字段,能夠解決該類問題。
作為練習(xí),我希望你多想想這些類型的問題,并回答以下問題。以下問題都是常見的、有趣的工作面試問題。
你如何處理這些問題?
如何自動(dòng)檢測這些差錯(cuò)?該問題是質(zhì)量保證(QA)問題嗎?
在大數(shù)據(jù)情景下這類問題是變得更糟了嗎?檢測問題和解決問題,哪個(gè)比較困難?
能夠容許多少壞數(shù)據(jù)?能否容許1%的錯(cuò)誤?欺詐檢測的話能容許的錯(cuò)誤甚至更少嗎?
解決這些問題,你花費(fèi)了多長時(shí)間?
如何設(shè)計(jì)智能的類型轉(zhuǎn)換?
情景4:異??臻g的回歸
這個(gè)例子說明了在使用傳統(tǒng)技術(shù)解決新問題之前,需要改進(jìn)原有技術(shù),如回歸。這些技術(shù)有些已經(jīng)超過了100年,是統(tǒng)計(jì)分析領(lǐng)域的主要工具。針對小的數(shù)據(jù)集,已經(jīng)有簡單的數(shù)學(xué)方案能解決問題。隨著大數(shù)據(jù)和大規(guī)模并行計(jì)算能力的出現(xiàn),情況已經(jīng)不同。
比如,你想通過逆向工程得到可口可樂的配方?;谠S多人的品嘗結(jié)果(根據(jù)實(shí)驗(yàn)設(shè)計(jì)),響應(yīng)值Y衡量你的配方跟可口可樂真正配方的接近程度。事實(shí)上,這非常類似于在臨床試驗(yàn)中,通過測試混合的原子或化學(xué)基(每個(gè)組合產(chǎn)生一個(gè)獨(dú)特的分子)來改善藥物效果。而自變量是二進(jìn)制值,每一個(gè)代表一個(gè)成分,如鹽、水、玉米糖漿等。如果所討論的成分在配方中是存在的,則該值等于1,否則等于0。這與標(biāo)準(zhǔn)的線性或邏輯回歸有很大的差異。
技術(shù)講義
回歸系數(shù)a_k (k = 1,…,m) 必須滿足以下要求。
每個(gè)k都是正數(shù)(a_k大于或等于0)。
這些系數(shù)的總和等于1。
總之,你在單純形空間進(jìn)行回歸,其中a_k代表混合的比例。這種回歸有一個(gè)有趣的特性,a_k系數(shù)的平方和等于由SUM(a_k)=1定義的m-1面體面積的平方,且a_k大于或等于0。(這是畢達(dá)哥拉斯定理的一個(gè)泛化。)這有點(diǎn)像一個(gè)套索回歸、嶺回歸或邏輯(是logic而不是logistic)回歸,但放在貝葉斯框架里,也可以利用馬爾可夫蒙特卡洛(MCMC)來解決。
如何解決在一個(gè)球面上的回歸?例如:
根據(jù)鳥的視線,找出加拿大大雁的遷徙飛行路徑。
針對一顆在行星上撞擊出多個(gè)排一起的隕石坑的流星,計(jì)算其軌跡和起源。
基于火山的位置探測地質(zhì)斷層(兩者幾乎是一一對應(yīng)的,比如在喀斯喀特山脈內(nèi),或在大西洋中部的海底)。
答案是通過將球面映射到平面上,通過平面回歸來解決問題。
在這個(gè)例子中,目的是創(chuàng)造一個(gè)競爭產(chǎn)品,口味和可口可樂一樣,用不同的名字稱呼它,并以更低的價(jià)錢銷售。如果味道是相同的,但成分是不同的,那么可口可樂制造商若起訴你復(fù)制他們的配方是沒法勝訴的。我認(rèn)為,Virgin(維京)幾乎克隆出來了這個(gè)味道。當(dāng)然,百事可樂并不相近:味道是那么不同,二者就像蘋果和橘子的差別。
最后說回來,有許多不同的方法來解決回歸問題(或任何數(shù)據(jù)科學(xué)問題。如果你使用正確的參數(shù),則不同解決方案在效率方面往往是等效的。例如,你可以用純優(yōu)化或純數(shù)學(xué)解決這個(gè)問題。統(tǒng)計(jì)學(xué)家會(huì)認(rèn)為,使用這種方法不能為回歸參數(shù)建立置信區(qū)間,或沒法測試是否有一些參數(shù)等于0。作為替代,我自己設(shè)計(jì)了一個(gè)無須統(tǒng)計(jì)模型就可以計(jì)算置信區(qū)間的方法。這個(gè)方法被稱為分析橋(Analyticbridge)第一定理,將在這本書更多技術(shù)化的章節(jié)里得到描述。
情景5:分析與誘導(dǎo)在提升銷量上有何不同價(jià)值
這個(gè)例子說明即使是最好的分析,如果你忽略了其他關(guān)鍵的、使業(yè)務(wù)成功的要素,也不會(huì)很有用??傊?,對于所有業(yè)務(wù)問題,分析并不是萬能的。
這個(gè)情景的背景是提高轉(zhuǎn)化率,如將網(wǎng)站訪問者轉(zhuǎn)化為活躍用戶,或者是將被動(dòng)的簡報(bào)訂閱者轉(zhuǎn)化為業(yè)務(wù)意向(打開簡報(bào)和點(diǎn)擊鏈接即代表意向)。在此我們討論簡報(bào)的轉(zhuǎn)化問題,雖然這個(gè)例子可以適用于許多不同的環(huán)境。
為了最大限度地提高總的意向數(shù)量,你需要使用誘導(dǎo)手段和分析手段。銷售量是一個(gè)與下列影響因子密切相關(guān)的函數(shù)。
誘導(dǎo)
分析
產(chǎn)品
價(jià)格
競爭
聲譽(yù)
市場營銷
首先,即使是度量“誘導(dǎo)”或“分析”也是很困難的。但是你可以用一個(gè)0~10的級別(10表示最好的),誘導(dǎo)值=9代表公司在使用誘導(dǎo)方法上非常努力,而分析值=0代表公司完全忽視分析手段。
在優(yōu)化簡報(bào)郵件方面(從而最大限度地提升意向的數(shù)量和規(guī)模),大多數(shù)公司把誘導(dǎo)設(shè)置為1,把分析設(shè)置為4或5。通常是通過多變量測試、數(shù)學(xué)分割、用戶群定向進(jìn)行分析的。這種方法來源于營銷人員所受的訓(xùn)練——但是,這不是最好的方法。現(xiàn)在,ISP(互聯(lián)網(wǎng)服務(wù)提供商)提供的用戶細(xì)分,比傳統(tǒng)的用戶分組技術(shù)更關(guān)鍵。未能送達(dá)給Gmail用戶,比起分組不當(dāng)送達(dá)給不恰當(dāng)?shù)腉mail用戶,后者更糟糕(例如,年輕用戶和年老用戶雖然收到不同的信息,但是這些信息并不是有針對性發(fā)送的)。
另一個(gè)關(guān)鍵的錯(cuò)誤是在郵件主題上,重復(fù)使用相同的關(guān)鍵詞,剛開始這樣可能有效,但最終會(huì)使你的用戶厭煩而不想讀你的簡報(bào)(除非你已經(jīng)找到彌補(bǔ)用戶流失的方法,比如說雇用增長極客來幫助你解決問題)。如果你的競爭對手也使用完全相同的關(guān)鍵詞,這個(gè)問題就更加復(fù)雜了。
豐富多樣的、非炒作性的關(guān)鍵詞對于分析型、高學(xué)歷、厭惡垃圾郵件的用戶來說非常有效果。例如,一個(gè)主題行,如Weekly digest, July 29(digest用小寫字母d)比25 Fantastic Articles From Top Big Data Gurus(From用大寫字母F)的效果更好。當(dāng)然,后者可能在前兩次效果很好,但最終還是無效的。此外,你的簡報(bào)內(nèi)容必須與主題行緊密相關(guān),否則你失去用戶的速度會(huì)比你獲得新用戶的速度快。
相反地,你可以基于誘導(dǎo)而不是分析手段,即,猜測用戶現(xiàn)在喜歡什么內(nèi)容,而不是根據(jù)歷史的效果數(shù)據(jù)來設(shè)計(jì)內(nèi)容。它也可以自動(dòng)化完成,并轉(zhuǎn)化為分析規(guī)則——例如,檢測一個(gè)關(guān)鍵熱詞奏效的次數(shù),例如“肚皮舞分析”這一有效關(guān)鍵詞可以持續(xù)多久,等等。過度使用通過分析找到的技巧,最終會(huì)使得誘導(dǎo)手段沒有存在空間,也會(huì)拉低銷售。但現(xiàn)在,似乎很多網(wǎng)絡(luò)營銷者忽視了這些規(guī)則。誘導(dǎo)比分析提供一個(gè)更大的杠桿效應(yīng)(雖然它們應(yīng)該混合在一起),特別是長期業(yè)務(wù)。
情景6:關(guān)于隱藏?cái)?shù)據(jù)
在該情景下,你的數(shù)據(jù)就像Gruyere奶酪一樣。它有很多、很大的孔。有時(shí)候,空白的空間占據(jù)著比數(shù)據(jù)本身更大的容積,就像在宇宙中暗物質(zhì)比可見物質(zhì)更豐富一樣。這個(gè)情景不是關(guān)于淺層的或稀疏的數(shù)據(jù),而是關(guān)于你看不到的數(shù)據(jù),你甚至不知道它們的存在,但它們比你的數(shù)據(jù)倉庫里的任何東西,都有更好的可操作價(jià)值。
以下是“Gruyere數(shù)據(jù)”的3種情況,以及每一種情況的補(bǔ)救方法。
1丟失的或不完整的數(shù)據(jù)
這是最容易解決的問題。任何有才華的數(shù)據(jù)科學(xué)家都可以使用現(xiàn)代的、無偏的數(shù)據(jù)補(bǔ)齊技術(shù),來解決這個(gè)問題。大多數(shù)分析軟件也包括處理丟失數(shù)據(jù)的機(jī)制。
2經(jīng)過刪改的數(shù)據(jù)
所謂刪改,我的意思是從統(tǒng)計(jì)學(xué)角度看的。下面是一個(gè)例子:我們要估計(jì)所有至少涉及一次犯罪的槍支比例。我們使用的數(shù)據(jù)集(槍或犯罪統(tǒng)計(jì))已經(jīng)被刪改了,比如品牌的新槍今天并沒有用來殺人而沒被統(tǒng)計(jì)在內(nèi),但可能下個(gè)星期就被用來射殺某人。此外,一些罪犯丟棄了他們的槍,在案發(fā)后可能追蹤不到該槍支。
你如何處理這個(gè)問題?任何有才華的數(shù)據(jù)科學(xué)家都能輕松使用正確的統(tǒng)計(jì)技術(shù)處理這個(gè)問題,使用統(tǒng)計(jì)分布(通常是指數(shù)的)來衡量犯罪時(shí)間,并基于刪改數(shù)據(jù)估計(jì)其平均值。這樣問題就解決了。
3隱藏?cái)?shù)據(jù)
處理隱藏?cái)?shù)據(jù)是一個(gè)大問題。首先,你甚至不知道它的存在,因?yàn)樗强床灰姷?,至少從你的角度來說是看不見的。領(lǐng)域?qū)I(yè)知識和統(tǒng)計(jì)學(xué)知識(更多技術(shù)知識的經(jīng)驗(yàn)法則),會(huì)幫助你意識到潛在的隱藏?cái)?shù)據(jù)。事實(shí)上,數(shù)據(jù)可能根本就不存在,在這種情況下,首先你必須組裝數(shù)據(jù)。
思考這樣一個(gè)例子:假設(shè)Target公司在試圖優(yōu)化它的收入數(shù)字。它分析了銷售數(shù)據(jù),看看與花園相關(guān)的物品什么時(shí)候銷售量最好。該公司總部在明尼蘇達(dá)州,2月份沒有任何關(guān)于花園物品的銷售數(shù)據(jù),任何人提出這樣的分析做法可能被當(dāng)場解雇,或被懷疑是不是吃錯(cuò)藥。然而,在加州,2月份Target的競爭對手們的花園物品銷售量不錯(cuò),一直到6月份都沒有留給Target什么市場份額。Target不知道原因,錯(cuò)誤地認(rèn)為在加州花園物品這塊沒錢可賺。
你如何處理該問題?即使Target可能缺乏2月份的花園物品銷售數(shù)據(jù),但可以查看競爭對手的數(shù)據(jù)(例如,瀏覽和分析每天發(fā)送的數(shù)百萬封垃圾郵件),這是正確方向上良好的第一步。但真正的解決方案是雇用一位有遠(yuǎn)見的數(shù)據(jù)科學(xué)家。有才華的數(shù)據(jù)科學(xué)家利用每個(gè)人都能看到的數(shù)據(jù);有遠(yuǎn)見的數(shù)據(jù)科學(xué)家利用沒人看到的數(shù)據(jù)。
情景7:汽油中的鉛會(huì)導(dǎo)致高犯罪率。真的嗎
這種典型的分析和觀點(diǎn)可能在受尊敬的新聞媒體上出現(xiàn)過,然而這種分析不足以支持作者的觀點(diǎn)。根據(jù)Rick Nevin的計(jì)量經(jīng)濟(jì)學(xué)的研究,禁用含鉛汽油約20年后,(汽油使用量高的)大城市的犯罪率達(dá)到高峰。20年的滯后是嬰兒受鉛影響到成為20歲罪犯所經(jīng)歷的時(shí)間。至少這是一些著名的計(jì)量經(jīng)濟(jì)學(xué)家基于過去大城市歷年犯罪率的分析而提出的論點(diǎn)。但這又是一個(gè)缺乏適當(dāng)?shù)膶?shí)驗(yàn)設(shè)計(jì)的例子。
那么,如何設(shè)計(jì)一個(gè)更好的研究呢?我們可以得到過去30年間所有特定規(guī)模的城市1萬人的均衡樣本,樣本分成兩個(gè)子集(罪犯和非罪犯),并檢查(使用比率)罪犯是否比非罪犯在出生時(shí)更容易受鉛影響??傊?,要跟之前的研究相反,要針對個(gè)體而不是城市——也就是看微觀層面,而不是宏觀層面——并進(jìn)行經(jīng)典的假設(shè)檢驗(yàn),使用標(biāo)準(zhǔn)抽樣和適當(dāng)?shù)膶?shí)驗(yàn)程序設(shè)計(jì)。
或者,如果你真的想研究原有的宏觀時(shí)間序列(假設(shè)數(shù)據(jù)粒度細(xì)到每月),那可以進(jìn)行Granger因果關(guān)系檢驗(yàn),這樣會(huì)考慮原始時(shí)間序列轉(zhuǎn)為白噪聲后的所有互相關(guān)系的殘差(類似于時(shí)間序列的頻譜分析或相關(guān)圖分析)。然而,如果你有幾千個(gè)指標(biāo)(因此會(huì)有幾千個(gè)時(shí)間序列和幾百萬個(gè)相關(guān)性),你最終會(huì)發(fā)現(xiàn)非常高的相關(guān)性純屬意外。這被稱為大數(shù)據(jù)的“詛咒”,在第2章中會(huì)對此詳細(xì)描述。
相關(guān)性不是因果關(guān)系。不要輕易聲稱是因果關(guān)系,除非你能證明它。很多時(shí)候,多個(gè)相互依賴的因素會(huì)對同一問題產(chǎn)生影響。當(dāng)嬰兒潮一代(不太守法的一代)20歲時(shí),也許正是犯罪發(fā)生高峰期。這可能是一個(gè)更可信的原因。
情景8:波音787(夢幻客機(jī))問題
波音公司的夢幻客機(jī)推出幾個(gè)月后不久,由于其電池相關(guān)問題,被FAA(聯(lián)邦航空局)禁飛。主要的問題是其使用了從未在飛機(jī)上使用過的一種新型鋰電池。這種強(qiáng)大的電池容易過熱和著火,導(dǎo)致短時(shí)間內(nèi)多次緊急著陸。
根本原因是設(shè)計(jì)電池的供應(yīng)商缺少良好的實(shí)驗(yàn)設(shè)計(jì)。這是一個(gè)質(zhì)量控制問題,而質(zhì)量控制在很大程度上依賴于分析。以下的一些提問證明了更好的質(zhì)量控制和實(shí)驗(yàn)設(shè)計(jì)可以解決電池問題。
這些電池(就像其他很多可以購買到的產(chǎn)品的電池,如汽車或筆記本電腦的電池)難道不能經(jīng)過深入的質(zhì)量控制檢測,采用健全的統(tǒng)計(jì)技術(shù),確保電池次品率或生命周期內(nèi)產(chǎn)品的失敗風(fēng)險(xiǎn)低于可接受的閾值嗎?
會(huì)不會(huì)是質(zhì)量控制測試沒有根據(jù)最佳實(shí)踐進(jìn)行?
過熱模擬能代表現(xiàn)實(shí)世界飛機(jī)起飛時(shí)的情況嗎?
“壓力”測試電池的時(shí)間夠不夠長?
是不是日本的質(zhì)量控制標(biāo)準(zhǔn)更低?因?yàn)檫@些電池的設(shè)計(jì)和生產(chǎn)是在日本進(jìn)行的。
這些電池的可靠性統(tǒng)計(jì)報(bào)告是錯(cuò)誤的嗎?
一種可能的解決方案是使用更好的機(jī)制來冷卻這種類型的電池,但在飛機(jī)上從來沒有使用過這種方法,不過,過去手機(jī)就因?yàn)檫^熱而發(fā)生過火災(zāi),所以現(xiàn)在所有手機(jī)中都使用冷卻手段。與手機(jī)或筆記本電腦不同的是,在一架飛機(jī)上,因?yàn)橥饨鐪囟冗h(yuǎn)低于冰點(diǎn),所以很容易冷卻(甚至是冷凍)。
情景9:NLP的7個(gè)棘手句子
NLP是指自然語言處理。當(dāng)數(shù)據(jù)科學(xué)家分析非結(jié)構(gòu)化的數(shù)據(jù)時(shí),如原始(未分類)文本,將會(huì)面臨這類問題,所以我們在此將對該類問題進(jìn)行說明。這類分析叫作文本挖掘。
以下7種類型的語言模式,很難用自動(dòng)化算法進(jìn)行分析。
“A land of milk and honey”變成“A land of Milken Honey” (這是針對 The Wall Street Journal 20世紀(jì)80年代以來的語料訓(xùn)練而形成的算法,該語料里Michael Milken 提到的次數(shù)比 milk 多)。
“She threw up her dinner”與“She threw up her hands”對比。
“I ate a tomato with salt”與“I ate a tomato with my mother”或“I ate a tomato with a fork”對比。
以“ing”結(jié)尾的單詞——例如,“They were entertaining people”。
“He washed and dried the dishes”與“He drank and smoked cigars”對比(在后面的情況下,他沒有“喝”香煙)。
“The lamb was ready to eat”與“Was the lamb hungry and wanting some grass?”對比。
具有多重含義的詞,如“bay”,可能是一種顏色,或者窗戶類型,或者海灣。
在這些例子中,或者在情感分析中,數(shù)據(jù)科學(xué)家試圖猜測用戶意圖,以便正確地解讀數(shù)據(jù),得到正確的答案或決策。例如,這可能會(huì)在以下情況中發(fā)生。
在分析谷歌搜索數(shù)據(jù)時(shí),根據(jù)用戶查詢應(yīng)該顯示哪些相關(guān)廣告?
對于發(fā)布在 Facebook 網(wǎng)頁上關(guān)于產(chǎn)品或公司的評論,如何分析評估它們是正面的還是負(fù)面的?
在分析 Facebook 的帖子時(shí),如何判定一個(gè)帖子是不是因?yàn)檫`反了 Facebook 的政策或法律而應(yīng)該被自動(dòng)刪除?
用戶畫像(如果可用)指標(biāo),或網(wǎng)頁和電子郵件內(nèi)容(特別是如果網(wǎng)頁已經(jīng)分類了),可以幫助解決歧義。
情景10:數(shù)據(jù)科學(xué)家決定著我們所吃的食品
影響美國人吃什么的因素有很多,但最大的因素是食品雜貨店的利潤率。這解釋了為什么我們買不到紅醋栗或百香果,但可以買到高能量飲料和富含糖分的食物。當(dāng)然,這有一個(gè)反饋循環(huán):美國人喜歡甜食,所以許多公司生產(chǎn)甜的食品,并且由于大規(guī)模生產(chǎn),所以價(jià)格便宜,因此食品雜貨店可以有效定價(jià),銷售量也好。
這也說明超市可以通過更好的分析來增加收入。這一切的背后都是數(shù)據(jù)科學(xué),數(shù)據(jù)科學(xué)有助于回答以下問題。
為了客戶利益和投資回報(bào)率(ROI),應(yīng)該嘗試去賣哪些新產(chǎn)品?紅醋栗派?橘子酒?法國風(fēng)味的櫻桃派?野豬肉?紫薯奶酪?紅雞蛋?球狀奶酪?(雖然球形不像平行的方形管道形狀,從存儲(chǔ)的角度來看不是最優(yōu)的,但這是另一個(gè)數(shù)據(jù)科學(xué)問題。)
你如何確定一個(gè)新產(chǎn)品的成功或失敗?你如何測試一個(gè)新產(chǎn)品(實(shí)驗(yàn)設(shè)計(jì)問題)?
哪些產(chǎn)品應(yīng)該被淘汰?(美國的大多數(shù)雜貨店將不再出售百香果、百香果汁和正宗的意大利香腸。)
如何度量提升力(收入增長)?你有考慮營銷費(fèi)用和其他費(fèi)用等因素嗎?
如何給一件商品定價(jià)?
如何進(jìn)行交叉銷售?
在營銷活動(dòng)中,如何優(yōu)化投資回報(bào)率?
什么時(shí)候及在哪里銷售哪種產(chǎn)品(根據(jù)季節(jié)性和地方性趨勢)?
如何改進(jìn)庫存預(yù)測?
上次我去一家雜貨店,購買全脂無糖酸奶。我在商店里找了10分鐘,只找到最后的一盒(品牌是Dannon)。我已經(jīng)準(zhǔn)備多花點(diǎn)錢購買這種酸奶(世界上數(shù)十億人消費(fèi)了幾千年的產(chǎn)品),而不是另兩種選擇:低脂肪,或原味帶甜的酸奶。(諷刺的是,這種“低脂肪”版本含有180卡路里,而以前普通的酸奶只含有150卡路里。這是因?yàn)榈椭镜漠a(chǎn)品中有玉米淀粉。)
隨著時(shí)間的推移,我發(fā)現(xiàn)雜貨鋪供應(yīng)的產(chǎn)品數(shù)量正在減少。很多舊產(chǎn)品被淘汰,引入了一些新產(chǎn)品。顯然,這些被淘汰的產(chǎn)品市場較小,如百香果。但是,數(shù)據(jù)科學(xué)能不能更好地幫助食品雜貨零售商決定上架的商品,決定何時(shí)及在哪里銷售,并以多少比例和什么價(jià)格銷售呢?
答案是肯定的。一個(gè)好的解決方案是,借助具有較高預(yù)測能力的模型,在預(yù)測銷售量和(每種產(chǎn)品)收入時(shí),顆粒度更精細(xì),方差更小。在這種情況下,雖然很多人盡量避免有脂酸奶,但在西部和東部沿海地區(qū)有很多較瘦的人不介意喝原味酸奶。因此,在西雅圖或波士頓可以銷售原味酸奶(也許僅僅是幾十盒高價(jià)的產(chǎn)品,放置在低價(jià)低脂品牌旁),但在堪薩斯市則銷售不了。
這也為專用雜貨店創(chuàng)造了新的機(jī)會(huì),如在美國西北部的PCC自然品市場,賣的正是其他超市已經(jīng)停止出售的產(chǎn)品(只要是暢銷的)??傊卿N售能產(chǎn)生利潤但其他超市已經(jīng)不再銷售的產(chǎn)品。
這個(gè)例子也說明了,對于數(shù)據(jù)科學(xué)家,溝通技巧是很重要的:提出了一種新方法,并說服高管使用這種方法,可以同時(shí)優(yōu)化利潤,且給客戶帶來長遠(yuǎn)的價(jià)值。當(dāng)然,這樣的做法將是一個(gè)長期的戰(zhàn)略投資,在短期內(nèi)可能無法滿足財(cái)務(wù)上的數(shù)字(公司的首席執(zhí)行官需要和股東說明)。
情景11:用較好的相關(guān)性增加亞馬遜的銷售量
亞馬遜是如何通過重新定義相關(guān)性來增加銷售量的?答案:通過改進(jìn)其搜索和相關(guān)性引擎,把物品價(jià)格當(dāng)作主要的相關(guān)因素。這里所描述的優(yōu)化和提升投資回報(bào)率的做法,適用于所有的數(shù)字化產(chǎn)品類別,雖然在本書中我們只針對書籍這個(gè)類目進(jìn)行了討論。
1搜索引擎
當(dāng)你在亞馬遜網(wǎng)站上的購書欄搜索關(guān)鍵詞時(shí),返回的搜索結(jié)果頁面,有10本推薦的書與你的關(guān)鍵詞匹配。這是由搜索引擎執(zhí)行的。搜索引擎會(huì)以某種排序顯示圖書。該排序是基于價(jià)格或關(guān)鍵詞相似度的。
2相關(guān)性引擎
如果你搜索一個(gè)特定的書名,亞馬遜還會(huì)基于其他用戶的購買記錄,顯示你可能感興趣的其他的書。這項(xiàng)任務(wù)是由相關(guān)性引擎執(zhí)行的。
技術(shù)講義
相關(guān)性引擎的工作原理是這樣的:如果有m(A,B) 個(gè)用戶在過去30天內(nèi)都購買了A書(是你想要購買的書)和B書,而k(A)代表購買A書的用戶數(shù),k(B)代表購買B書的用戶數(shù),那將A和B之間的關(guān)聯(lián)(從交叉銷售的角度,這些書的關(guān)聯(lián)程度)定義為R(A,B)=m(A,B)/SQRT{k(A)*k(B)}。所推薦的書籍排序完全由函數(shù)R(A,*)決定。
3更好的排序標(biāo)準(zhǔn)
昂貴的圖書將產(chǎn)生很少的銷售量,但有巨大的利潤。廉價(jià)的圖書利潤較少,但銷售數(shù)量能彌補(bǔ)每本書的利潤??傊?,如果顯示的書都跟用戶的相關(guān)性評分相同,那么在#1位置顯示的書的定價(jià)應(yīng)使得預(yù)期總收益最優(yōu)。圖1-1顯示了一個(gè)假想的最優(yōu)圖書定價(jià)是21美元。
此圖基于模擬的數(shù)字,假設(shè)書售出的機(jī)會(huì)是圖書定價(jià)的指數(shù)遞減函數(shù)。也就是:
P(sale | price) = a * exp(-b*price)
其中sale為銷售量,price為售價(jià)。一個(gè)更一般的模型是:
P(sale | price, relevancy score) = a * exp(-b*price) * f(relevancy score)
其中relevency score為相關(guān)性評分。
另一種能進(jìn)一步增加收入的方式是,將用戶數(shù)據(jù)也包含在公式中。一些用戶有能力購買一本昂貴的書。對于經(jīng)常購買更昂貴圖書的用戶,應(yīng)該在他們的搜索結(jié)果中,顯示更昂貴的書籍。
4把所有東西放在一起
當(dāng)銷售產(chǎn)生時(shí),我們怎么知道,是因?yàn)榘颜_定價(jià)的書籍顯示在了頂部,還是因?yàn)橥昝赖南嚓P(guān)性?例如,“數(shù)據(jù)科學(xué)”和“大數(shù)據(jù)”之間的關(guān)聯(lián)性很強(qiáng),但“數(shù)據(jù)科學(xué)”和“云計(jì)算”之間的關(guān)聯(lián)性不是很強(qiáng)。如果你的目標(biāo)是利潤最大化的話,那么是把一本昂貴的“云計(jì)算”書推薦給一位對“數(shù)據(jù)科學(xué)”感興趣的富人,或者給他推薦一本不太貴的與“大數(shù)據(jù)”相關(guān)的書,哪種做法明智?這也取決于你如何定義收入優(yōu)化:是長期(關(guān)聯(lián)性更重要)或短期,還是短期和長期的混合。正如你所看到的,從價(jià)格因素中分離出關(guān)聯(lián)性影響是不容易的。
當(dāng)關(guān)鍵詞或類別的相關(guān)性是基于“小數(shù)據(jù)”的(指專門的用戶查詢或銷售量小的書籍),價(jià)格因素特別有效。此外,檢測到底是什么帶來特定的轉(zhuǎn)化或銷售,是一個(gè)復(fù)雜的問題,這被稱為歸因。在復(fù)雜的情形下,宏觀經(jīng)濟(jì)(長期,總量的)指標(biāo),混合了非常細(xì)粒度的實(shí)時(shí)屬性指標(biāo),可用于營銷組合優(yōu)化。使用價(jià)格彈性模型和效率曲線也可進(jìn)行價(jià)格分析。
另一個(gè)有意思的領(lǐng)域是自定義定價(jià),實(shí)時(shí)地根據(jù)客戶、客戶的購買記錄(如果可用)、銷售該書的網(wǎng)站(根據(jù)網(wǎng)站的統(tǒng)計(jì)數(shù)據(jù))和書本身來確定書價(jià)。一些研究表明,一個(gè)固定的價(jià)格是最好的,否則精明的用戶會(huì)嘗試多次購買相同的項(xiàng)目,直到他們得到可能最低的價(jià)格(雖然他們沒有辦法知道什么時(shí)候價(jià)格最低)。然而,向那些不介意購買昂貴圖書的用戶銷售高價(jià)圖書(根據(jù)他們的購買歷史),而不是推薦用戶已經(jīng)購買過的書,是改善投資回報(bào)率最容易的方法。然而,在一些國家,這種定價(jià)策略已經(jīng)被禁止,在其他一些地方也有爭議。特別要注意,如果定制化價(jià)格是悄悄執(zhí)行,沒有被用戶了解和同意,還采用不道德的數(shù)據(jù)挖掘的做法并侵犯隱私的話,可能會(huì)導(dǎo)致用戶對你信任下降,并最終導(dǎo)致客戶流失、法律訴訟和收入下降。最終,用戶會(huì)注意到價(jià)格是定制的。
另一種最大限度地提高亞馬遜的利潤的方法,是按需求印刷書籍,而不是管理庫存、每月預(yù)測每本書的銷量。數(shù)據(jù)科學(xué)還有助于確定倉庫位置,以優(yōu)化交付效果(在速度和成本方面),以及銷售稅的優(yōu)化,從而更好地與其他書商競爭。
情景12:檢測Facebook上的假檔案或假“喜歡”數(shù)
某些網(wǎng)站出售假Twitter粉絲(1 000個(gè)粉絲10美金)、假的Facebook賬號,或甚至假的雅虎郵件賬號,用來傳播垃圾郵件,提升個(gè)人或零售商人氣,據(jù)說還可以用來促進(jìn)銷售。他們預(yù)先告訴買家,這些粉絲是假冒的。他們也在網(wǎng)上賣在Facebook點(diǎn)的“喜歡”數(shù),并且他們聲稱“喜歡”數(shù)是來自“真正的”Facebook用戶。
自動(dòng)檢測假“喜歡”數(shù)最簡單的方法是看相關(guān)評論數(shù):如果一個(gè)Facebook(或任何)帖子后有5000個(gè)“喜歡”數(shù),但沒有評論或只有20條評論,并且評論內(nèi)容都類似于“這是個(gè)很棒的帖子”,那就可以確定“喜歡”數(shù)和評論是機(jī)器人或水軍造假的。
數(shù)據(jù)科學(xué)算法就是根據(jù)這樣的指標(biāo),以及社交網(wǎng)絡(luò)圖、變化速度、近期賬戶創(chuàng)建和發(fā)布情況、自然語言處理和僵尸網(wǎng)絡(luò)/欺詐檢測規(guī)則來處理問題的。一些造假可以實(shí)時(shí)檢測到,而一些會(huì)稍后檢測和消除掉,比如通過臨時(shí)分析(數(shù)據(jù)分析師執(zhí)行的反應(yīng)式分析)或一天結(jié)束后的算法自動(dòng)分析(慣例分析)。
情景13:餐廳的分析
對于小企業(yè),特別是餐館,分析可以有很多種形式。這些企業(yè)需要解決的問題包括定價(jià)優(yōu)化、庫存管理、銷售預(yù)測、獲取競爭對手的信息、客戶對你的建議(比如需要使用一些自動(dòng)化軟件定期檢查客戶對餐廳的評論)、空間優(yōu)化(餐廳最多可以放多少張桌子)、葡萄酒和奶酪的選擇、菜單變化的頻率、每天和每月的開業(yè)和歇業(yè)時(shí)間、維持的廚師數(shù)量(包括決定最佳薪酬)。
可能最容易解決的問題之一是桌子的布局。最佳的解決方案是讓2個(gè)座位的桌子靠在墻邊,4個(gè)座位的桌子在房間的中央。這些桌子應(yīng)該是圓形的還是正方形的,平行于墻壁或形成一個(gè)45°角?很容易找到一個(gè)數(shù)學(xué)解決方案,或者至少做一些模擬,找出哪種最有效。正方形的桌子比圓形的好,可以輕松地組合起來,適應(yīng)更大的派對。假設(shè)餐廳總是被預(yù)訂滿并贏利,如果你增加20%的座位容量,那么你的利潤也應(yīng)該增加20%。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認(rèn)知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動(dòng)態(tài)隨機(jī)一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價(jià)值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實(shí)戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時(shí),“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗(yàn)與 t 檢驗(yàn):差異、適用場景與實(shí)踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計(jì)學(xué)領(lǐng)域,假設(shè)檢驗(yàn)是驗(yàn)證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計(jì)劃中 rows 數(shù)量的準(zhǔn)確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計(jì)劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實(shí)踐指南 在 Python 進(jìn)行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(shí)(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價(jià)值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點(diǎn)數(shù)據(jù)的科學(xué)計(jì)數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點(diǎn)數(shù)據(jù)時(shí)的科學(xué)計(jì)數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價(jià)值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運(yùn)營問題、提升執(zhí)行效率的核心手段,其價(jià)值 ...
2025-09-12用 SQL 驗(yàn)證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實(shí)戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計(jì)” 與 “用戶體驗(yàn) ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動(dòng)下的精準(zhǔn)零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當(dāng)下,精準(zhǔn)營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價(jià)值 在數(shù)據(jù)驅(qū)動(dòng)決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實(shí)踐到業(yè)務(wù)價(jià)值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計(jì)模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價(jià)值導(dǎo)向 統(tǒng)計(jì)模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數(shù)據(jù)分析師:商業(yè)數(shù)據(jù)分析實(shí)踐的落地者與價(jià)值創(chuàng)造者 商業(yè)數(shù)據(jù)分析的價(jià)值,最終要在 “實(shí)踐” 中體現(xiàn) —— 脫離業(yè)務(wù)場景的分 ...
2025-09-10