99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀 從谷歌流感趨勢(GFT)出錯看大數(shù)據(jù)發(fā)展之路
從谷歌流感趨勢(GFT)出錯看大數(shù)據(jù)發(fā)展之路
2014-09-03
收藏

          如今,包括電視在內(nèi)的許多媒體,都有“大數(shù)據(jù)分析”相關(guān)的一些欄目,大數(shù)據(jù)的概念也正在悄悄進(jìn)入普通老百姓的意識中。我最早接觸大數(shù)據(jù)應(yīng)用的時候, 被其中的一個重要案例所吸引,那就是谷歌與甲型H1N1流感的傳奇故事。我們不得不佩服谷歌公司的眼光,從其誕生之日,谷歌就保存了用戶所有的搜索記錄, 其他許多公司是不是將這些數(shù)據(jù)都當(dāng)做垃圾扔掉了?你以為你在用谷歌搜索呀,其實(shí)谷歌也在搜索你!谷歌知道了我們在什么地方、什么時間,對什么東西感興趣。如果將大量用戶的這些東西結(jié)合在一起,是不是有巨大的商業(yè)價值?現(xiàn)在,谷歌每天都會收到來自全球超過30億條的搜索指令,如此龐大的數(shù)據(jù)資源足以支撐和幫助它完成各種有趣的工作,關(guān)鍵在于你的想象力。


         谷歌的工程師們很早就發(fā)現(xiàn),某些搜索字詞非常有助于了解流感疫情:在流感季節(jié),與流感有關(guān)的搜索會明顯增多;到了過敏季節(jié),與過敏有關(guān)的搜索會顯著 上升;而到了夏季,與曬傷有關(guān)的搜索又會大幅增加。這是很容易理解的,一般的人沒有什么生病的癥狀,是不會去主動查那些與疾病相關(guān)的內(nèi)容的。于 是,2008年谷歌推出了“谷歌流感趨勢”(GFT),這個工具根據(jù)匯總的谷歌搜索數(shù)據(jù),近乎實(shí)時地對全球當(dāng)前的流感疫情進(jìn)行估測,但當(dāng)時并沒有引起太多 人的關(guān)注。2009年在H1N1爆發(fā)幾周前,谷歌公司的工程師們在Nature上發(fā)表了一篇論文,介紹了GFT,成功預(yù)測了H1N1在全美范圍的傳播,甚至具體到特定的地區(qū)和州,而且判斷非常及時,令公共衛(wèi)生官員們和計算機(jī)科學(xué)家們倍感震驚。與習(xí)慣性滯后的官方數(shù)據(jù)相比,谷歌成為了一個更有效、更及時的指示標(biāo),不會像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。這個工具最初運(yùn)行表現(xiàn)很好,許多國家的研究人員已經(jīng)證實(shí),其流感樣疾?。╥nfluenza-like illness, ILI)的估計是準(zhǔn)確的。


         2013年2月,GFT再次上了頭條,但這次不是因?yàn)楣雀枇鞲懈櫹到y(tǒng)又有了什么新的成就。2013年1月,美國流感發(fā)生率達(dá)到峰值,谷歌流感趨勢 的估計比實(shí)際數(shù)據(jù)高兩倍,就是這個不精確性再次引起了媒體的關(guān)注。事實(shí)上,在2013年的報道之前,GFT就多次在很長一段時間內(nèi)過高地估計了流感的流行 情況。 從2011年8月到2013年9月108周中,谷歌開發(fā)工具超估流感流行高達(dá)100個周。2012 – 2013與2011 – 2012的季節(jié)相比,它高估了流感流行趨勢超過50%。在去年冬天的流感季節(jié)高峰,谷歌追蹤是疾病控制和預(yù)防中心(CDC)實(shí)際搜集數(shù)據(jù)的兩倍。這些錯誤 不是隨機(jī)分布的。例如,前一周的錯誤會影響預(yù)測下一周的錯誤(時間自相關(guān)),錯誤的方向和大小隨季節(jié)而變化,這些模式使得GFT高估了相當(dāng)多的信息,而這 些信息原本是可以通過傳統(tǒng)統(tǒng)計方法提取而避免的。


          在上周Science上發(fā)表的一篇文章“谷歌流感的寓言:大數(shù)據(jù)分析的陷阱”,就是以這個故事為案例,解釋了大數(shù)據(jù)分析為何會背離事實(shí),并提出了大 數(shù)據(jù)時代背景下一些值得思考的事。作者認(rèn)為造成這種結(jié)果有兩個重要原因,分別是大數(shù)據(jù)浮夸(Big Data Hubris)和算法變化。


(1)我們經(jīng)常隱含的假設(shè)是,大數(shù)據(jù)是傳統(tǒng)的數(shù)據(jù)收集和分析的替代品,而不是補(bǔ)充。在其他地方,我們斷言大數(shù)據(jù)有巨大的科學(xué)可能性,但是,數(shù)據(jù)的量并不意味著人們可以忽略測量的基本問題,構(gòu)造效度和信度以及數(shù)據(jù)間的依賴關(guān)系。其核心挑戰(zhàn)是大多數(shù)大數(shù)據(jù)得到了大眾的關(guān)注,但并沒有產(chǎn)生對科學(xué)分析來說有效和可靠的數(shù)據(jù)。


(2)在谷歌為改善其服務(wù)中,也改變了數(shù)據(jù)生成過程。這些調(diào)整有可能人為推高了一些搜索,并導(dǎo)致谷歌的高估。例 如,2011年,作為常規(guī)搜索算法調(diào)整的一部分,谷歌對于許多查詢開始采用推薦相關(guān)搜索詞(包括列出與許多流感相關(guān)術(shù)語的尋找流感治療的清單)的方式,在 2012年,為了響應(yīng)對癥狀的搜索,谷歌開始提供診斷術(shù)語(當(dāng)用“喉嚨痛”搜索時,會列出許多相關(guān)的搜索詞,見下圖;當(dāng)然不同的語言差別也是很大的)。研 究人員認(rèn)為,如果是這樣,那么谷歌流感趨勢不準(zhǔn)確性就不是必然的,這并不是谷歌的方法或大數(shù)據(jù)分析本身存在什么缺陷,可以通過改變搜索引擎的一些策略


谷歌

 

         另外,當(dāng)研究人員對在過去幾年各種流感相關(guān)的查詢進(jìn)行研究時,他們發(fā)現(xiàn)兩個關(guān)鍵搜索詞(流感治療,以及如何區(qū)分流感、受涼或感冒)與谷歌流感趨勢結(jié) 合更密切,而不是實(shí)際的流感,看來這些特殊的搜索似乎是導(dǎo)致不準(zhǔn)確問題的大部分原因。從大數(shù)據(jù)追蹤流感是一個特別困難的問題。事實(shí)證明,很大一部分與 CDC流感發(fā)生率數(shù)據(jù)相關(guān)的搜索詞,并非是得流感的人引起的,而是由影響搜索模式和流感傳播的第三個因素(季節(jié))產(chǎn)生的。事實(shí)上,谷歌流感趨勢的開發(fā)人員發(fā)現(xiàn)那些特定的搜索詞是隨時間而發(fā)生變化的,但這些搜索顯然與病毒無關(guān)。


        這些問題并不限于GFT。研究搜索或社會媒體能否預(yù)測某個未知的參數(shù)已經(jīng)成為一種普遍現(xiàn)象,與傳統(tǒng)方法和假設(shè)形成了鮮明的對比。盡管這些研究顯示了這些數(shù)據(jù)的價值,但是還遠(yuǎn)未達(dá)到要取代傳統(tǒng)的方法或理論的地步。大數(shù)據(jù)在幫助公共衛(wèi)生事業(yè)方面具有巨大的潛力,但如果沒有足夠的背景信息,僅僅靠數(shù)字可能是會誤導(dǎo)人的。谷 歌是一個業(yè)務(wù),但也保留著人們的愿望、想法和聯(lián)系的數(shù)據(jù)。確定谷歌流感趨勢出現(xiàn)問題的確切位置并不容易,因?yàn)樵摴镜乃阉魉惴ê蛿?shù)據(jù)收集過程是其專有技 術(shù)。誠然,對局外人來說很難分析谷歌流感趨勢,因?yàn)樵摴静⒉辉腹_特定搜索詞的原始數(shù)據(jù),以及將這些搜索詞出現(xiàn)頻率轉(zhuǎn)化為流感評估的特定算法。上周 Science文章的作者也仍然認(rèn)為,問題是可以解決的。他們推薦應(yīng)該將大數(shù)據(jù)與小數(shù)據(jù)(即傳統(tǒng)的控制數(shù)據(jù)集)結(jié)合起來,創(chuàng)建對人類行為更深入、更準(zhǔn)確的表達(dá)。


        科學(xué)是一個是站在巨人肩膀上逐漸累積的過程,需要科學(xué)家能夠不斷地評估他們建立的工作,而知識的積累需要數(shù)據(jù)形式的燃料。相關(guān)研究者網(wǎng)絡(luò)總是想提高 大數(shù)據(jù)項(xiàng)目的價值,并從這些類型的數(shù)據(jù)中擠出更多的可操作性的信息。最初GFT是希望產(chǎn)生一個能準(zhǔn)確反映當(dāng)前流行傳染病可能,這樣可早日采取措施進(jìn)行生命 救治的干預(yù)。從根本上講這是正確的,所有的分析表明,這確實(shí)是有價值的信息提取。另一個值得重視的問題是數(shù)據(jù)的源頭,不管是私營企業(yè)還是社交媒體都可能存 在有意無意地操縱數(shù)據(jù)的問題,因?yàn)樗麄兛偸且_保與其產(chǎn)品的相關(guān)性或贏得廣告收入。對各個流感的分析表明,最好的結(jié)果來自兩個來源的信息和技術(shù)的結(jié)合。取代談?wù)摗按髷?shù)據(jù)革命”的應(yīng)該是“全數(shù)據(jù)革命”(all data revolution),應(yīng)該用全新的技術(shù)和方法對各種問題進(jìn)行更多更好的分析。

                                                                                                                             數(shù)據(jù)分析師

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗(yàn)證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }