
大數(shù)據(jù)、新方法和日常問
如果讓我們決定是否去看一部電影,有兩種辦法來做決策:我們可以上豆瓣了解這部電影質(zhì)量如何,專家的評價怎么樣;也可以在朋友圈瀏覽一下,看看身邊有多少人去看了這部電影。實際生活沒有這么涇渭分明,在豆瓣上也可以打卡,在朋友圈也會有人分享心得,上面只是個大概的特點罷了。不過,這確實代表了觀看電影這一行為背后兩個可能的推手。一是學(xué)習(xí)(learning),我們?nèi)タ措娪翱赡苁且驗槲覀儚膭e人那里聽說這部電影好。二是情緒分享(emotion sharing),我們?nèi)タ措娪翱赡苤皇且驗橹車娜硕既タ戳?。這個問題初看起來無關(guān)緊要,但對電影廠商關(guān)系重大,因為這決定了他們的宣傳策略。如果我們看電影更多的是因為電影好,那電影商就應(yīng)該設(shè)法拍出好的電影并且把這個信息傳遞給我們。如果我們看電影更多的只是因為周圍的人都看了,那電影好壞也許就沒那么重要了,想辦法把電影炒熱,炒出話題性也許更重要。所以這個區(qū)別絕對不是無關(guān)緊要的。
以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1
基于社會媒體的預(yù)測技術(shù)
問題來了,怎么才能設(shè)計一種實證策略,把這兩種效應(yīng)區(qū)分開呢?這是Gilchrist和Sands在Journal of Political Economy即將刊出的論文Something To Talk About最主要的貢獻之一。他們文章的另一個創(chuàng)新點是用LASSO來挑選變量,這一點我們后面也會談到。為了區(qū)分這一點,他們首先弄了一個非常簡單的模型。每個人的效用是三項之和,第一項是電影的客觀質(zhì)量,第二項是自身的異質(zhì)性,服從0到1上的均勻分布,第三項是他人的影響,等于身邊已經(jīng)看了電影的人的數(shù)量再乘上一個系數(shù)。每一個體都有一個保留效用而且非常短視:只要這一期效用高于保留水平就會看。他不會說后面看的人多了,效用更高再去看,只要高于保留就會去。這個模型非常容易解,結(jié)果就是每一期看電影的總?cè)藬?shù)都是上一期的人的數(shù)量乘上一個比例,也就是每一期都是指數(shù)衰減的,這個比例就是他人影響的系數(shù)。這是沒有社會學(xué)習(xí)的情況,也就是說,如果單純只有情感共享一個因素的話,從上映開始觀眾就應(yīng)該越來越少,而且是以指數(shù)速率衰減的。他們的目標就是實證這個模型。
首先是要有好的數(shù)據(jù)。兩位作者從BoxOfficeMojo拿到了基本是最全的觀影人數(shù)記錄。數(shù)據(jù)的時間范圍是2002到2012年,這個網(wǎng)站很多數(shù)據(jù)都是免費的!如果對這個題目感興趣可以直接上去拷。接下來是對數(shù)據(jù)的預(yù)處理。為了防止截尾問題,他們只用了上映時間至少超過六周的電影做實證。上映時間不到六周的電影很多都不是平常的電影,五個數(shù)據(jù)點做擴散也比較無力。另一項重要的預(yù)處理是只用周五、周六、周日的數(shù)據(jù),這是研究電影產(chǎn)業(yè)的慣例,因為在周中和周末觀影的人群行為差異很大。不過,在在線發(fā)布的補充材料中,他們說明了,即使把這兩點加進去,估計結(jié)果也不會受到顯著影響。加入票房表現(xiàn)比較糟糕的電影并不會顯著改變估計結(jié)果。加入周中的也不會,實際上,由于美國電影絕大多數(shù)都在周五上映,無論是擴散還是學(xué)習(xí)過程,大部分都發(fā)生在周末。這樣下來,一共是包含557個周末,共1671天的數(shù)據(jù)。平均來看,排除那兩種數(shù)據(jù)之后,電影在上映首周平均有250萬觀眾,在接下來的一周只剩下130萬,到第六周之后平均只剩下20萬了。如果前面講的情感共享非常重要的話,把所有其它因素拿掉,第一周觀影人數(shù)增加應(yīng)該會帶來后面每一周觀影人數(shù)的增加。
這還不夠,最重要的是要尋找一個工具變量來把影片質(zhì)量分離掉。我們知道,除了口口相傳可以影響每周的觀影人數(shù)外,影片質(zhì)量也可以。如果影片質(zhì)量比較好,那也可能每一周的觀影人數(shù)都特別多。兩位作者找到的這個工具變量就是天氣。已有的研究顯示,天氣,無論是溫度還是降水,都會顯著影響人們的觀影行為,但天氣不會影響影片的質(zhì)量。因為前面敘述的票房數(shù)據(jù)是遍及全美的,作者也不辭辛勞收集了全美1941個氣象站10年來的氣溫、降水、降雪和冰雹數(shù)據(jù),并且和氣象站覆蓋區(qū)域內(nèi)的電影院做了一一匹配。為了說明氣象站數(shù)據(jù)確實可以反映當天電影院附近的氣候狀況,他們特意做了檢驗,結(jié)論是只有1%的電影院離最近的氣象站距離超過160公里。而在這個范圍內(nèi),小氣候有比較好的一致性,這就解決了這個可能的批評。
接下來是想辦法把天氣數(shù)量這個數(shù)據(jù)劃得更細。比如說氣溫,不是所有范圍內(nèi)的氣溫都會對觀影行為產(chǎn)生影響的,像15-20攝氏度這個范圍內(nèi),我們的觀影行為受氣溫影響可能就很小。為了解決這個問題,兩位作者先把氣象數(shù)據(jù)劃成了很多小塊,每個單獨作為一個變量。像氣溫就以5度作為一個變量的界限,當天氣溫是否在80-85華氏度是一個變量,當天氣溫是否在85-90華氏度又是一個變量。降水則以四分之一英寸每小時劃界,像當天降水是否早0到十分之一英寸每小時就是一個變量,降雪、冰雹等數(shù)據(jù)也類似劃分。接下來就是選工具變量了。不過這里有兩個問題。首先,電影廠商也知道氣候變動會影響票房,所以他們也會看天氣預(yù)報,然后按照天氣來選電影上映的時間。其次,直接挑選工具變量,會面臨巨大的運算量——這是個NP問題,常用的優(yōu)化方法表現(xiàn)很差,甚至可能根本得不到最優(yōu)解。再考慮到這里的數(shù)據(jù)量,有必要采取特別的處理方法。
為了解決第一個問題,兩位作者首先計算了典型天氣條件下的典型觀影量。電影廠商也不可能預(yù)知未來,他們也只能根據(jù)已有數(shù)據(jù)去推測過幾天會有怎樣的天氣。兩位作者用所有氣象數(shù)據(jù),計算了季節(jié)平均氣候和月平均氣候。比如說春季的典型氣候,或者說1月份的典型氣候,然后拿那一天實際氣候減去對應(yīng)的典型氣候,就得到了異常氣候。兩種精度不同的度量最后差別不大。接下來要算典型觀影量。先要控制日固定效應(yīng),也就說是周幾。還要控制周固定效應(yīng),也就是看這一周是一年里的第幾周。一個平凡的工作周中的觀影量圣誕節(jié)周的觀影量當然不能相提并論。最后還要控制美國的一堆節(jié)日。我嘗試著把節(jié)日數(shù)量數(shù)清楚,但直到最后也沒有成功,姑且算4、50個吧。我把詳細的列表放在了下面,有志者可以自己去數(shù)。結(jié)合上面所有因素,我們才能得到典型氣候下的典型觀影量,如果用計量的語言來說,就是回歸的擬合值。只有這時候我們才能把異常天氣和異常觀影量放進來。
我們希望找到最好的工具變量是這樣子的:和影片質(zhì)量沒有關(guān)系,但是又會極大地影響觀影量。接下來的任務(wù)就是從前面劃好的一堆氣候、降水、降雪之類的變量里拿出一個,最好地符合上面的條件。這等價于我現(xiàn)在有一個向量,里面全是工具變量,我希望找到一個最優(yōu)的工具變量的系數(shù)組合,來幫我實現(xiàn)這個目的。通常的辦法,講得再形式化一點,就是下面這張圖,等價于我要求一組向量,最大化對異常值的解釋力再加上一個懲罰項。前一項是一個簡單的二次函數(shù),是“好”的函數(shù),處理起來沒有任何問題。但后面一項處理起來很難,因為這實際上是一組指標,如果某個對應(yīng)的工具變量系數(shù)不為0,這個指標就取1,否則取0,以此達到懲罰的目的。像這篇文章的情況,工具變量非常多,按前面的劃分方法,加起來可能有差不多有三四十個,就假設(shè)三十個吧,那可能的情況也有種,屬于NP問題,運算效率非常低下。兩位作者在這里創(chuàng)新地引入了LASSO方法,把后面的懲罰項換成了各工具變量系數(shù)和,也就是beta的絕對值。這就把這個問題變成全局上的“好”函數(shù),而通常的比較快速的求解方法也就可以運用了。這也是這篇文章重要進展之一:以后如果我們有一組備選的工具變量,我們也可以用LASSO來大大加快數(shù)據(jù)的處理時間。當數(shù)據(jù)規(guī)模非常龐大時,這一點尤為珍貴。我們可能還希望看看挑選出來的工具變量和影片質(zhì)量是否確實沒有關(guān)系。此外,在后面檢驗社會學(xué)習(xí)假說時也要用到質(zhì)量。他們借助IMDB來構(gòu)造影片質(zhì)量數(shù)據(jù)庫,具體方法是看IMDB上1000個“最有貢獻的投票者”的投票結(jié)果,把所有影片按照評分高低放到了各個十位點上。他們發(fā)現(xiàn),電影質(zhì)量和觀影人數(shù)確實有非常明顯的聯(lián)系。平均而言,排在前十分之一的電影在六周之類售出了約800萬張票,而排在最后十分之一的電影只賣出了大概460萬張票。此外,兩位作者還指出可以用總預(yù)算來衡量觀眾對影片質(zhì)量的把握程度。之所以這樣,原因是影片的廣告預(yù)算一般是總預(yù)算的一個固定比例,而廣告越多,觀眾對電影的了解也可能越多。為證實這一點,他們特別把影片預(yù)算排在前百分之十和后百分之十的影片拿出來,分別計算了預(yù)料之外的購票數(shù)量。所謂預(yù)料之外的售票量,就是結(jié)合其它特征和第一周的購票量之后算出的第二周購票數(shù)量,也可稱為回歸的擬合值。這個量的分布就反映了觀眾對影片質(zhì)量的了解,尾巴越肥,極端值越多,觀眾對影片的質(zhì)量把握就越差。兩位作者做了K-S檢驗,發(fā)現(xiàn),預(yù)算前百分之十的電影的這個分布,和后百分之十的顯著不同。平均而言,大預(yù)算電影明顯能更好地傳遞自身信息。把上面所有信息都考慮過之后,我們終于可以放心愉快地使用我們找出來的工具變量了。兩位作者在一開始把工具變量的數(shù)目限制在一個,發(fā)現(xiàn)效果最好的是當日氣溫是否位于75-80華氏度這個變量,一旦這樣的異常天氣出現(xiàn),觀影人數(shù)會異常地向下跌落10%,也就是差不多有23萬人不去看電影。75-80華氏度是個非常舒服的天氣,家庭可以選擇更多其它的活動。這樣的一個工具變量確實是非常優(yōu)越的。
工具變量找到了,問題也就解決了。接下來就是普通的兩階段最小二乘回歸。只不過這里要做五次,因為作者使用了六周的數(shù)據(jù),回歸結(jié)果如下。這里的回歸結(jié)果需要解釋一下,如果我們回憶一開始的模型,就會發(fā)現(xiàn):因為只要高于保留效用,個體就會看電影。所以,只有第一期看的那些人才是真正覺得電影好的。而覺得電影好的第一期也都會去看。后面的都是被前面的個體帶動起來的。于是后面看電影的數(shù)量就應(yīng)該是前一期的數(shù)量乘上他人影響的系數(shù),這也是我們前面討論過的結(jié)論。因此,如果我們把所有因素都過濾掉以后再回歸,從第二周開始的電影觀影人數(shù)都應(yīng)該只受第一期人數(shù)影響,或者說這個系數(shù)應(yīng)該是正的,并且每一周的系數(shù)都是指數(shù)衰減。從圖中可以看出,幾乎所有系數(shù)都非常顯著,說明情感共享確實是影響觀影人數(shù)的重要因素。仔細觀察數(shù)據(jù)還可以發(fā)現(xiàn),估計結(jié)果和他人影響為o.5的時候非常相近,基本上每一周觀影人數(shù)都衰減一半。這樣的估計對評分最高和最低的十分之一電影都顯著。即使把只有一個工具變量的約束拿掉,允許LASSO在所有變量里尋找最優(yōu)權(quán)重,拼出一個最優(yōu)的工具變量,結(jié)果依然穩(wěn)健。因此,文章的一個主要結(jié)論已經(jīng)出來了:情感共享確實影響觀影人數(shù),而且在美國,還可以估計出他人影響系數(shù)大概是0.5。
在此基礎(chǔ)上,作者還針對紐約和洛杉磯等地區(qū)做了檢驗,結(jié)論是一致的。不過,分區(qū)檢驗的主要困難是前述觀影數(shù)據(jù)只有全國匯總?cè)藬?shù),而分區(qū)檢驗需要地方數(shù)據(jù)。不過這難不住他們,Google搜索指數(shù)可以提供關(guān)于區(qū)域觀影人數(shù)的比較準確的估計。根據(jù)已有的研究,在大部分地區(qū),這個指數(shù)和實際觀影人數(shù)的相關(guān)度都超過了0.7。他們盡量將觀影人數(shù)精確到日。不過,如果搜索人數(shù)太少,Google搜索會顯示不出來。如果遇到這種情況,他們就查詢周搜索指數(shù),然后重構(gòu)觀影人數(shù)。他們以此作為代理變量重復(fù)了前面的步驟,發(fā)現(xiàn)上述結(jié)論在各地區(qū)依然穩(wěn)健。
上面的結(jié)論還不夠,雖然作者已經(jīng)說明了情感共享確實能夠影響觀影人數(shù),但我們還要排除替代性的解釋,最主要的就是排除學(xué)習(xí)。作者考慮了兩種不同的學(xué)習(xí)機制。第一種學(xué)習(xí)機制是社會學(xué)習(xí)(social learning),在這種情景中,個體可以充分地傳達他們關(guān)于電影的評價。也就是說,我看了一部電影,我可以完全地把我對電影的感受傳達給你。作者在這里使用了一個很巧妙的估計策略:如果社會學(xué)習(xí)真的存在,那么,質(zhì)量越高的電影,面臨的信息閾值(information threshold)就會越小。因為關(guān)于高質(zhì)量電影的信息可以充分傳遞,比方說一部絕世佳作,只要幾個人和我說這部片精妙無雙,我的預(yù)期效用就會超過我的保留效用,然后我就會去看?;蛘哒f,對于質(zhì)量更高的電影來說,更大的初始動量(第一周去看電影的人的數(shù)量)也會帶來后續(xù)更龐大的觀影人群。用計量的方法來檢查這個結(jié)論,就是分開高質(zhì)量和低質(zhì)量電影兩組,然后用后續(xù)觀影人數(shù)做因變量,控制其它特征后拿第一周觀影人數(shù)做自變量做回歸。結(jié)果發(fā)現(xiàn)系數(shù)是不顯著的。有待排除的另一種學(xué)習(xí)方法是觀察學(xué)習(xí)(observational learning)。在這種學(xué)習(xí)機制中,個體只能觀察到別人的行為而無法知曉別人的評價。也就是說,我只能看到別人有沒有去看電影,但我不知道他/她心里是怎么想的。作者在這里的處理同樣十分精妙。如果每個人都是觀察式學(xué)習(xí)的,那么對電影的初始信念越分散,初始動量帶來的后續(xù)觀影人群就越大。設(shè)想這么一個場景,初始所有人的信念都一樣,那此時初始動量的增加對我不會有任何影響,因為我沒有接收到任何新的信息。相反,如果所有人的信念都不一樣,此時第一周觀影人數(shù)的每一個增量都很寶貴,此時每一個增量都會帶來關(guān)于電影質(zhì)量的進一步信息。明白了這一點,實證的策略就是一模一樣的了,只不過之前控制質(zhì)量,現(xiàn)在要控制大家對質(zhì)量了解的準確程度。我們在前面已經(jīng)提過影片總預(yù)算和信念準確程度的相關(guān)關(guān)系,正好在這里派上用場。結(jié)果顯示,回歸系數(shù)也不顯著。綜上所述,我們可以得到本文的第二個主要結(jié)論:沒有證據(jù)支持學(xué)習(xí)對觀影人數(shù)的影響。
這篇文章到這里就大體結(jié)束了,不過如果真要認真去摳的話,還是可以摳出很多細節(jié)。文章的獨特之處有二:一是對龐大數(shù)據(jù)集的細致處理。十年間所有電影的相關(guān)數(shù)據(jù),還有十年間將近2000個氣象觀測站的每日數(shù)據(jù),都需要收集、整理、清潔、處理,只是為了解決這么一個在我們一開始看來,似乎不是太大的問題。但整篇文章看下來,我們不得不承認,只有這樣規(guī)模的數(shù)據(jù)和這種程度的努力,才能真正把這個問題處理得比較干凈。二是對新技術(shù)的快速運用。這篇文章雖然2015年才正式被接受,但初稿在2012年已經(jīng)完成。而文中使用的,在多維變量空間中用LASSO方法進行判別的嚴格理論也才剛剛被Chernozukov和Hansen等學(xué)者做出來,等于是新理論剛出來,實際問題就用上了。這也是很給人啟發(fā)的。超大的數(shù)據(jù)集賦予了我們許多可能——工具變量居然多到要去判別了,但相應(yīng)地,我們也要用更細密的方法,做出更踏實的結(jié)論,才對得起這么豪華的數(shù)據(jù)。
數(shù)據(jù)分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
SQL Server 中 CONVERT 函數(shù)的日期轉(zhuǎn)換:從基礎(chǔ)用法到實戰(zhàn)優(yōu)化 在 SQL Server 的數(shù)據(jù)處理中,日期格式轉(zhuǎn)換是高頻需求 —— 無論 ...
2025-09-18MySQL 大表拆分與關(guān)聯(lián)查詢效率:打破 “拆分必慢” 的認知誤區(qū) 在 MySQL 數(shù)據(jù)庫管理中,“大表” 始終是性能優(yōu)化繞不開的話題。 ...
2025-09-18CDA 數(shù)據(jù)分析師:表結(jié)構(gòu)數(shù)據(jù) “獲取 - 加工 - 使用” 全流程的賦能者 表結(jié)構(gòu)數(shù)據(jù)(如數(shù)據(jù)庫表、Excel 表、CSV 文件)是企業(yè)數(shù)字 ...
2025-09-18DSGE 模型中的 Et:理性預(yù)期算子的內(nèi)涵、作用與應(yīng)用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數(shù)據(jù)分析師:解鎖表結(jié)構(gòu)數(shù)據(jù)特征價值的專業(yè)核心 表結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 規(guī)范存儲的結(jié)構(gòu)化數(shù)據(jù),如數(shù)據(jù)庫表、Excel 表、 ...
2025-09-17Excel 導(dǎo)入數(shù)據(jù)含缺失值?詳解 dropna 函數(shù)的功能與實戰(zhàn)應(yīng)用 在用 Python(如 pandas 庫)處理 Excel 數(shù)據(jù)時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應(yīng)用 在數(shù)據(jù)分析與統(tǒng)計學(xué)領(lǐng)域,假設(shè)檢驗是驗證研究假設(shè)、判斷數(shù)據(jù)差異是否 “ ...
2025-09-16CDA 數(shù)據(jù)分析師:掌控表格結(jié)構(gòu)數(shù)據(jù)全功能周期的專業(yè)操盤手 表格結(jié)構(gòu)數(shù)據(jù)(以 “行 - 列” 存儲的結(jié)構(gòu)化數(shù)據(jù),如 Excel 表、數(shù)據(jù) ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數(shù)量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調(diào)優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網(wǎng)絡(luò)請求開發(fā)時(如使用requests ...
2025-09-15CDA 數(shù)據(jù)分析師:激活表格結(jié)構(gòu)數(shù)據(jù)價值的核心操盤手 表格結(jié)構(gòu)數(shù)據(jù)(如 Excel 表格、數(shù)據(jù)庫表)是企業(yè)最基礎(chǔ)、最核心的數(shù)據(jù)形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調(diào)用、數(shù)據(jù)爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數(shù)據(jù)的科學(xué)計數(shù)法問題 為幫助 Python 數(shù)據(jù)從業(yè)者解決pd.read_csv讀取長浮點數(shù)據(jù)時的科學(xué)計數(shù)法問題 ...
2025-09-12CDA 數(shù)據(jù)分析師:業(yè)務(wù)數(shù)據(jù)分析步驟的落地者與價值優(yōu)化者 業(yè)務(wù)數(shù)據(jù)分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務(wù)邏輯:從規(guī)則拆解到數(shù)據(jù)把關(guān)的實戰(zhàn)指南 在業(yè)務(wù)系統(tǒng)落地過程中,“業(yè)務(wù)邏輯” 是連接 “需求設(shè)計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數(shù)據(jù)驅(qū)動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數(shù)據(jù)分析師與戰(zhàn)略 / 業(yè)務(wù)數(shù)據(jù)分析:概念辨析與協(xié)同價值 在數(shù)據(jù)驅(qū)動決策的體系中,“戰(zhàn)略數(shù)據(jù)分析”“業(yè)務(wù)數(shù)據(jù)分析” 是企業(yè) ...
2025-09-11Excel 數(shù)據(jù)聚類分析:從操作實踐到業(yè)務(wù)價值挖掘 在數(shù)據(jù)分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數(shù)據(jù)中挖 ...
2025-09-10統(tǒng)計模型的核心目的:從數(shù)據(jù)解讀到?jīng)Q策支撐的價值導(dǎo)向 統(tǒng)計模型作為數(shù)據(jù)分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10