99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)、新方法和日常問
大數(shù)據(jù)、新方法和日常問
2016-01-10
收藏

大數(shù)據(jù)、新方法和日常問

如果讓我們決定是否去看一部電影,有兩種辦法來做決策:我們可以上豆瓣了解這部電影質(zhì)量如何,專家的評價怎么樣;也可以在朋友圈瀏覽一下,看看身邊有多少人去看了這部電影。實際生活沒有這么涇渭分明,在豆瓣上也可以打卡,在朋友圈也會有人分享心得,上面只是個大概的特點罷了。不過,這確實代表了觀看電影這一行為背后兩個可能的推手。一是學習(learning),我們?nèi)タ措娪翱赡苁且驗槲覀儚膭e人那里聽說這部電影好。二是情緒分享(emotion sharing),我們?nèi)タ措娪翱赡苤皇且驗橹車娜硕既タ戳?。這個問題初看起來無關(guān)緊要,但對電影廠商關(guān)系重大,因為這決定了他們的宣傳策略。如果我們看電影更多的是因為電影好,那電影商就應該設(shè)法拍出好的電影并且把這個信息傳遞給我們。如果我們看電影更多的只是因為周圍的人都看了,那電影好壞也許就沒那么重要了,想辦法把電影炒熱,炒出話題性也許更重要。所以這個區(qū)別絕對不是無關(guān)緊要的。

以Amazon、豆瓣網(wǎng)為例,探索推薦引擎內(nèi)部的秘密#1

基于社會媒體的預測技術(shù)

問題來了,怎么才能設(shè)計一種實證策略,把這兩種效應區(qū)分開呢?這是Gilchrist和Sands在Journal of Political Economy即將刊出的論文Something To Talk About最主要的貢獻之一。他們文章的另一個創(chuàng)新點是用LASSO來挑選變量,這一點我們后面也會談到。為了區(qū)分這一點,他們首先弄了一個非常簡單的模型。每個人的效用是三項之和,第一項是電影的客觀質(zhì)量,第二項是自身的異質(zhì)性,服從0到1上的均勻分布,第三項是他人的影響,等于身邊已經(jīng)看了電影的人的數(shù)量再乘上一個系數(shù)。每一個體都有一個保留效用而且非常短視:只要這一期效用高于保留水平就會看。他不會說后面看的人多了,效用更高再去看,只要高于保留就會去。這個模型非常容易解,結(jié)果就是每一期看電影的總?cè)藬?shù)都是上一期的人的數(shù)量乘上一個比例,也就是每一期都是指數(shù)衰減的,這個比例就是他人影響的系數(shù)。這是沒有社會學習的情況,也就是說,如果單純只有情感共享一個因素的話,從上映開始觀眾就應該越來越少,而且是以指數(shù)速率衰減的。他們的目標就是實證這個模型。

首先是要有好的數(shù)據(jù)。兩位作者從BoxOfficeMojo拿到了基本是最全的觀影人數(shù)記錄。數(shù)據(jù)的時間范圍是2002到2012年,這個網(wǎng)站很多數(shù)據(jù)都是免費的!如果對這個題目感興趣可以直接上去拷。接下來是對數(shù)據(jù)的預處理。為了防止截尾問題,他們只用了上映時間至少超過六周的電影做實證。上映時間不到六周的電影很多都不是平常的電影,五個數(shù)據(jù)點做擴散也比較無力。另一項重要的預處理是只用周五、周六、周日的數(shù)據(jù),這是研究電影產(chǎn)業(yè)的慣例,因為在周中和周末觀影的人群行為差異很大。不過,在在線發(fā)布的補充材料中,他們說明了,即使把這兩點加進去,估計結(jié)果也不會受到顯著影響。加入票房表現(xiàn)比較糟糕的電影并不會顯著改變估計結(jié)果。加入周中的也不會,實際上,由于美國電影絕大多數(shù)都在周五上映,無論是擴散還是學習過程,大部分都發(fā)生在周末。這樣下來,一共是包含557個周末,共1671天的數(shù)據(jù)。平均來看,排除那兩種數(shù)據(jù)之后,電影在上映首周平均有250萬觀眾,在接下來的一周只剩下130萬,到第六周之后平均只剩下20萬了。如果前面講的情感共享非常重要的話,把所有其它因素拿掉,第一周觀影人數(shù)增加應該會帶來后面每一周觀影人數(shù)的增加。

這還不夠,最重要的是要尋找一個工具變量來把影片質(zhì)量分離掉。我們知道,除了口口相傳可以影響每周的觀影人數(shù)外,影片質(zhì)量也可以。如果影片質(zhì)量比較好,那也可能每一周的觀影人數(shù)都特別多。兩位作者找到的這個工具變量就是天氣。已有的研究顯示,天氣,無論是溫度還是降水,都會顯著影響人們的觀影行為,但天氣不會影響影片的質(zhì)量。因為前面敘述的票房數(shù)據(jù)是遍及全美的,作者也不辭辛勞收集了全美1941個氣象站10年來的氣溫、降水、降雪和冰雹數(shù)據(jù),并且和氣象站覆蓋區(qū)域內(nèi)的電影院做了一一匹配。為了說明氣象站數(shù)據(jù)確實可以反映當天電影院附近的氣候狀況,他們特意做了檢驗,結(jié)論是只有1%的電影院離最近的氣象站距離超過160公里。而在這個范圍內(nèi),小氣候有比較好的一致性,這就解決了這個可能的批評。

接下來是想辦法把天氣數(shù)量這個數(shù)據(jù)劃得更細。比如說氣溫,不是所有范圍內(nèi)的氣溫都會對觀影行為產(chǎn)生影響的,像15-20攝氏度這個范圍內(nèi),我們的觀影行為受氣溫影響可能就很小。為了解決這個問題,兩位作者先把氣象數(shù)據(jù)劃成了很多小塊,每個單獨作為一個變量。像氣溫就以5度作為一個變量的界限,當天氣溫是否在80-85華氏度是一個變量,當天氣溫是否在85-90華氏度又是一個變量。降水則以四分之一英寸每小時劃界,像當天降水是否早0到十分之一英寸每小時就是一個變量,降雪、冰雹等數(shù)據(jù)也類似劃分。接下來就是選工具變量了。不過這里有兩個問題。首先,電影廠商也知道氣候變動會影響票房,所以他們也會看天氣預報,然后按照天氣來選電影上映的時間。其次,直接挑選工具變量,會面臨巨大的運算量——這是個NP問題,常用的優(yōu)化方法表現(xiàn)很差,甚至可能根本得不到最優(yōu)解。再考慮到這里的數(shù)據(jù)量,有必要采取特別的處理方法。

為了解決第一個問題,兩位作者首先計算了典型天氣條件下的典型觀影量。電影廠商也不可能預知未來,他們也只能根據(jù)已有數(shù)據(jù)去推測過幾天會有怎樣的天氣。兩位作者用所有氣象數(shù)據(jù),計算了季節(jié)平均氣候和月平均氣候。比如說春季的典型氣候,或者說1月份的典型氣候,然后拿那一天實際氣候減去對應的典型氣候,就得到了異常氣候。兩種精度不同的度量最后差別不大。接下來要算典型觀影量。先要控制日固定效應,也就說是周幾。還要控制周固定效應,也就是看這一周是一年里的第幾周。一個平凡的工作周中的觀影量圣誕節(jié)周的觀影量當然不能相提并論。最后還要控制美國的一堆節(jié)日。我嘗試著把節(jié)日數(shù)量數(shù)清楚,但直到最后也沒有成功,姑且算4、50個吧。我把詳細的列表放在了下面,有志者可以自己去數(shù)。結(jié)合上面所有因素,我們才能得到典型氣候下的典型觀影量,如果用計量的語言來說,就是回歸的擬合值。只有這時候我們才能把異常天氣和異常觀影量放進來。

節(jié)假日
我們希望找到最好的工具變量是這樣子的:和影片質(zhì)量沒有關(guān)系,但是又會極大地影響觀影量。接下來的任務就是從前面劃好的一堆氣候、降水、降雪之類的變量里拿出一個,最好地符合上面的條件。這等價于我現(xiàn)在有一個向量,里面全是工具變量,我希望找到一個最優(yōu)的工具變量的系數(shù)組合,來幫我實現(xiàn)這個目的。通常的辦法,講得再形式化一點,就是下面這張圖,等價于我要求一組向量,最大化對異常值的解釋力再加上一個懲罰項。前一項是一個簡單的二次函數(shù),是“好”的函數(shù),處理起來沒有任何問題。但后面一項處理起來很難,因為這實際上是一組指標,如果某個對應的工具變量系數(shù)不為0,這個指標就取1,否則取0,以此達到懲罰的目的。像這篇文章的情況,工具變量非常多,按前面的劃分方法,加起來可能有差不多有三四十個,就假設(shè)三十個吧,那可能的情況也有種,屬于NP問題,運算效率非常低下。兩位作者在這里創(chuàng)新地引入了LASSO方法,把后面的懲罰項換成了各工具變量系數(shù)和,也就是beta的絕對值。這就把這個問題變成全局上的“好”函數(shù),而通常的比較快速的求解方法也就可以運用了。這也是這篇文章重要進展之一:以后如果我們有一組備選的工具變量,我們也可以用LASSO來大大加快數(shù)據(jù)的處理時間。當數(shù)據(jù)規(guī)模非常龐大時,這一點尤為珍貴。LASSO我們可能還希望看看挑選出來的工具變量和影片質(zhì)量是否確實沒有關(guān)系。此外,在后面檢驗社會學習假說時也要用到質(zhì)量。他們借助IMDB來構(gòu)造影片質(zhì)量數(shù)據(jù)庫,具體方法是看IMDB上1000個“最有貢獻的投票者”的投票結(jié)果,把所有影片按照評分高低放到了各個十位點上。他們發(fā)現(xiàn),電影質(zhì)量和觀影人數(shù)確實有非常明顯的聯(lián)系。平均而言,排在前十分之一的電影在六周之類售出了約800萬張票,而排在最后十分之一的電影只賣出了大概460萬張票。此外,兩位作者還指出可以用總預算來衡量觀眾對影片質(zhì)量的把握程度。之所以這樣,原因是影片的廣告預算一般是總預算的一個固定比例,而廣告越多,觀眾對電影的了解也可能越多。為證實這一點,他們特別把影片預算排在前百分之十和后百分之十的影片拿出來,分別計算了預料之外的購票數(shù)量。所謂預料之外的售票量,就是結(jié)合其它特征和第一周的購票量之后算出的第二周購票數(shù)量,也可稱為回歸的擬合值。這個量的分布就反映了觀眾對影片質(zhì)量的了解,尾巴越肥,極端值越多,觀眾對影片的質(zhì)量把握就越差。兩位作者做了K-S檢驗,發(fā)現(xiàn),預算前百分之十的電影的這個分布,和后百分之十的顯著不同。平均而言,大預算電影明顯能更好地傳遞自身信息。把上面所有信息都考慮過之后,我們終于可以放心愉快地使用我們找出來的工具變量了。兩位作者在一開始把工具變量的數(shù)目限制在一個,發(fā)現(xiàn)效果最好的是當日氣溫是否位于75-80華氏度這個變量,一旦這樣的異常天氣出現(xiàn),觀影人數(shù)會異常地向下跌落10%,也就是差不多有23萬人不去看電影。75-80華氏度是個非常舒服的天氣,家庭可以選擇更多其它的活動。這樣的一個工具變量確實是非常優(yōu)越的。

工具變量找到了,問題也就解決了。接下來就是普通的兩階段最小二乘回歸。只不過這里要做五次,因為作者使用了六周的數(shù)據(jù),回歸結(jié)果如下。這里的回歸結(jié)果需要解釋一下,如果我們回憶一開始的模型,就會發(fā)現(xiàn):因為只要高于保留效用,個體就會看電影。所以,只有第一期看的那些人才是真正覺得電影好的。而覺得電影好的第一期也都會去看。后面的都是被前面的個體帶動起來的。于是后面看電影的數(shù)量就應該是前一期的數(shù)量乘上他人影響的系數(shù),這也是我們前面討論過的結(jié)論。因此,如果我們把所有因素都過濾掉以后再回歸,從第二周開始的電影觀影人數(shù)都應該只受第一期人數(shù)影響,或者說這個系數(shù)應該是正的,并且每一周的系數(shù)都是指數(shù)衰減。從圖中可以看出,幾乎所有系數(shù)都非常顯著,說明情感共享確實是影響觀影人數(shù)的重要因素。仔細觀察數(shù)據(jù)還可以發(fā)現(xiàn),估計結(jié)果和他人影響為o.5的時候非常相近,基本上每一周觀影人數(shù)都衰減一半。這樣的估計對評分最高和最低的十分之一電影都顯著。即使把只有一個工具變量的約束拿掉,允許LASSO在所有變量里尋找最優(yōu)權(quán)重,拼出一個最優(yōu)的工具變量,結(jié)果依然穩(wěn)健。因此,文章的一個主要結(jié)論已經(jīng)出來了:情感共享確實影響觀影人數(shù),而且在美國,還可以估計出他人影響系數(shù)大概是0.5。

情感共享相關(guān)系數(shù)在此基礎(chǔ)上,作者還針對紐約和洛杉磯等地區(qū)做了檢驗,結(jié)論是一致的。不過,分區(qū)檢驗的主要困難是前述觀影數(shù)據(jù)只有全國匯總?cè)藬?shù),而分區(qū)檢驗需要地方數(shù)據(jù)。不過這難不住他們,Google搜索指數(shù)可以提供關(guān)于區(qū)域觀影人數(shù)的比較準確的估計。根據(jù)已有的研究,在大部分地區(qū),這個指數(shù)和實際觀影人數(shù)的相關(guān)度都超過了0.7。他們盡量將觀影人數(shù)精確到日。不過,如果搜索人數(shù)太少,Google搜索會顯示不出來。如果遇到這種情況,他們就查詢周搜索指數(shù),然后重構(gòu)觀影人數(shù)。他們以此作為代理變量重復了前面的步驟,發(fā)現(xiàn)上述結(jié)論在各地區(qū)依然穩(wěn)健。

上面的結(jié)論還不夠,雖然作者已經(jīng)說明了情感共享確實能夠影響觀影人數(shù),但我們還要排除替代性的解釋,最主要的就是排除學習。作者考慮了兩種不同的學習機制。第一種學習機制是社會學習(social learning),在這種情景中,個體可以充分地傳達他們關(guān)于電影的評價。也就是說,我看了一部電影,我可以完全地把我對電影的感受傳達給你。作者在這里使用了一個很巧妙的估計策略:如果社會學習真的存在,那么,質(zhì)量越高的電影,面臨的信息閾值(information threshold)就會越小。因為關(guān)于高質(zhì)量電影的信息可以充分傳遞,比方說一部絕世佳作,只要幾個人和我說這部片精妙無雙,我的預期效用就會超過我的保留效用,然后我就會去看?;蛘哒f,對于質(zhì)量更高的電影來說,更大的初始動量(第一周去看電影的人的數(shù)量)也會帶來后續(xù)更龐大的觀影人群。用計量的方法來檢查這個結(jié)論,就是分開高質(zhì)量和低質(zhì)量電影兩組,然后用后續(xù)觀影人數(shù)做因變量,控制其它特征后拿第一周觀影人數(shù)做自變量做回歸。結(jié)果發(fā)現(xiàn)系數(shù)是不顯著的。有待排除的另一種學習方法是觀察學習(observational learning)。在這種學習機制中,個體只能觀察到別人的行為而無法知曉別人的評價。也就是說,我只能看到別人有沒有去看電影,但我不知道他/她心里是怎么想的。作者在這里的處理同樣十分精妙。如果每個人都是觀察式學習的,那么對電影的初始信念越分散,初始動量帶來的后續(xù)觀影人群就越大。設(shè)想這么一個場景,初始所有人的信念都一樣,那此時初始動量的增加對我不會有任何影響,因為我沒有接收到任何新的信息。相反,如果所有人的信念都不一樣,此時第一周觀影人數(shù)的每一個增量都很寶貴,此時每一個增量都會帶來關(guān)于電影質(zhì)量的進一步信息。明白了這一點,實證的策略就是一模一樣的了,只不過之前控制質(zhì)量,現(xiàn)在要控制大家對質(zhì)量了解的準確程度。我們在前面已經(jīng)提過影片總預算和信念準確程度的相關(guān)關(guān)系,正好在這里派上用場。結(jié)果顯示,回歸系數(shù)也不顯著。綜上所述,我們可以得到本文的第二個主要結(jié)論:沒有證據(jù)支持學習對觀影人數(shù)的影響。

這篇文章到這里就大體結(jié)束了,不過如果真要認真去摳的話,還是可以摳出很多細節(jié)。文章的獨特之處有二:一是對龐大數(shù)據(jù)集的細致處理。十年間所有電影的相關(guān)數(shù)據(jù),還有十年間將近2000個氣象觀測站的每日數(shù)據(jù),都需要收集、整理、清潔、處理,只是為了解決這么一個在我們一開始看來,似乎不是太大的問題。但整篇文章看下來,我們不得不承認,只有這樣規(guī)模的數(shù)據(jù)和這種程度的努力,才能真正把這個問題處理得比較干凈。二是對新技術(shù)的快速運用。這篇文章雖然2015年才正式被接受,但初稿在2012年已經(jīng)完成。而文中使用的,在多維變量空間中用LASSO方法進行判別的嚴格理論也才剛剛被Chernozukov和Hansen等學者做出來,等于是新理論剛出來,實際問題就用上了。這也是很給人啟發(fā)的。超大的數(shù)據(jù)集賦予了我們許多可能——工具變量居然多到要去判別了,但相應地,我們也要用更細密的方法,做出更踏實的結(jié)論,才對得起這么豪華的數(shù)據(jù)。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }