99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁職業(yè)發(fā)展用好大數(shù)據(jù),得小心繞過這些坑
用好大數(shù)據(jù),得小心繞過這些坑
2015-12-09
收藏

用好大數(shù)據(jù),得小心繞過這些坑


在這個大數(shù)據(jù)被頻繁提起的時代,要想去說說大數(shù)據(jù)的缺陷或是不好的地方,還是需要有一點底氣的。好在我們并不是在否定它的作用與價值,而是想提醒每一個想利用好大數(shù)據(jù)、經(jīng)營好大數(shù)據(jù)的單位與個人,必須小心在已有的實踐中早已探明的一些大坑與陷阱,避開這些缺陷所引起的不必要失誤。

1,千萬注意樣本的局限性或特殊性

某報紙記者為了采訪當(dāng)下關(guān)于DNA親子鑒定的情況,前往某檢測機構(gòu)調(diào)查,在統(tǒng)計了相關(guān)數(shù)據(jù)之后,得到一個驚人的事實,所有的檢測中,竟有近35%的結(jié)果是非親子。這名記者還不放心,又多跑了更大范圍的好幾家檢測機構(gòu),發(fā)現(xiàn)這個數(shù)據(jù)總體都相差不大,于是發(fā)布了新聞《驚人真相:超1/3的男人被戴綠帽》。其實不看數(shù)據(jù),就算掰腳趾頭也知道這新聞胡說八道了,但數(shù)據(jù)又是怎么一回事呢?問題就在于這采集樣本太特殊了。這記者沒去想想,什么樣的人才會帶孩子去做親子鑒定?當(dāng)然是有了其它顯著性的證據(jù)或懷疑以后才去的嘛!

2,有些干擾性會隨著數(shù)據(jù)量的增長超越正常

大數(shù)據(jù)的理論往往會主張,隨著數(shù)據(jù)量的增長,分析結(jié)果會越來越準(zhǔn)確。但是事實上,客觀世界里的數(shù)據(jù)無限復(fù)雜,許多非常一般性的數(shù)據(jù)都有著不等的干擾性,一旦把它們都混合在一起,往往會過份地擴大這些干擾性,產(chǎn)生出許多帶有欺騙性的結(jié)論。比如美國經(jīng)濟的預(yù)測,美國政府每年公布的經(jīng)濟指標(biāo)數(shù)據(jù)有4.5萬個,而私人機構(gòu)提供的高達(dá)400萬個,如此龐雜的數(shù)據(jù),代入到二戰(zhàn)后的11次經(jīng)濟衰退事實中去,得出的結(jié)果卻是五花八門,對于預(yù)測下一次經(jīng)濟衰退毫無幫助。

3,數(shù)據(jù)自身的發(fā)展與變化同樣會影響應(yīng)用結(jié)果

最經(jīng)典的大數(shù)據(jù)應(yīng)用之一,就是谷歌利用搜索引擎預(yù)測流感趨勢。谷歌沒有用任何復(fù)雜的模型,也不依賴任何醫(yī)療檢查,因為他們發(fā)現(xiàn)當(dāng)人們出現(xiàn)或懷疑有流感癥狀時,就會上網(wǎng)搜索一些相關(guān)的內(nèi)容。谷歌的工程師們只需動用算法對網(wǎng)上5000萬個最熱門的搜索字進(jìn)行計算即可。谷歌流感趨勢的成功,很快就成為了商業(yè)、技術(shù)和科學(xué)領(lǐng)域中最新趨勢的象征。

然而僅僅4年后,人們突然發(fā)現(xiàn)在最近的一次流感爆發(fā)中,谷歌流感趨勢不起作用了。在它作出了一次嚴(yán)重的流感爆發(fā)預(yù)警之后,事實發(fā)現(xiàn)并沒有這么嚴(yán)重。對此,,預(yù)測結(jié)果比實際情況要夸大了幾乎一倍。事后分析的原因有兩點: 第一是這一年的媒體上充斥著各種關(guān)于流感的駭人故事,導(dǎo)致大量健康的人也會上網(wǎng)上搜索相關(guān)的詞匯;還有就是谷歌更新了自己的搜索算法,在人們輸入與病癥相關(guān)的詞匯時會自動推薦一些診斷結(jié)果,進(jìn)而影響到了用戶的搜索和瀏覽行為。

4,數(shù)據(jù)行為的表身有時并不代表用戶的意愿

許多用戶都對于“今日頭條”這樣的個性化新聞應(yīng)用頗多抱怨,認(rèn)為他們所宣稱的基于大數(shù)據(jù)技術(shù)“精確推送”的新聞并不精準(zhǔn)。其實我們回到日常應(yīng)用中就會發(fā)現(xiàn),事實上每個人點擊每個標(biāo)題的動因非常復(fù)雜,點擊的意愿并不代表對于它的興趣,更何況,網(wǎng)絡(luò)上充斥著大量的標(biāo)題黨誘騙我們的點擊,以及很多時候,我們明明知道它是標(biāo)題黨,但只是為了點進(jìn)去看看它到底能玩出什么樣的花樣而已。如果這些因素都不能得到修正,那么這些點擊行為統(tǒng)統(tǒng)被計算成使用偏好,得出來的結(jié)果則會大相徑庭。因此,今日頭條才會別行提供了“不感興趣”的反向過濾功能,來修正這種誤差。

5,為大數(shù)據(jù)而生的統(tǒng)計工具會成為污染的重點

因為大數(shù)據(jù)的應(yīng)用存在于現(xiàn)實的商業(yè)環(huán)境之中,這些數(shù)據(jù)的得出,關(guān)聯(lián)著眾多的商業(yè)利益與個人利益。因此,許多相應(yīng)就對以及試圖影響的黑科技也會就此誕生。目前對于學(xué)生以及學(xué)者論文的查重工具非常流行,它們就是依賴于論文庫的大數(shù)據(jù)對于檢測論文的句詞分析,來判斷最終的重復(fù)可能與抄襲程度。一旦有人搞清這個程序與語法判斷的邏輯,他們就可以相應(yīng)地以另一種程序來避開檢查,從而達(dá)到安全抄襲的目的。

同樣,各種SEO技術(shù),就是針對谷歌、百度等大搜索引擎的大數(shù)據(jù)分析排序算法,通過相應(yīng)的技術(shù)應(yīng)對,去影響到搜索引擎的最終計算結(jié)果,將一些并不重要的搜索結(jié)果排在了最前面。再比如,前幾年,可以利用大數(shù)據(jù)技術(shù),從互聯(lián)網(wǎng)浩瀚的數(shù)據(jù)海洋中客觀分析排出不同行業(yè)中真正有影響力的品牌與產(chǎn)品。而如今,隨著大數(shù)據(jù)概念的普及,各種商業(yè)機構(gòu)出于自身利益原因而大量制造、優(yōu)化與推廣的信息,遠(yuǎn)遠(yuǎn)超出了普通用戶反饋的信息,從這里所謂大數(shù)據(jù)統(tǒng)計出來的結(jié)果,往往就是被污染的事實。

6,不要期望大數(shù)據(jù)絕對準(zhǔn)確,往往只需要提高一點準(zhǔn)確度即可

這是大數(shù)據(jù)應(yīng)用中的最后一個淺坑,它的表述至少能給我們安慰。因為人類對于數(shù)據(jù)應(yīng)用、數(shù)據(jù)分析以及數(shù)據(jù)與最終事實真相之間的關(guān)聯(lián)研究,還未走到最后的關(guān)頭。所以,任何期望大數(shù)據(jù)能夠給我們絕對準(zhǔn)確、絕對真實的結(jié)果的想法,都是不現(xiàn)實的。但也并非是完全否則,其實,我們只需要通過大數(shù)據(jù),能夠給現(xiàn)有的工作、生活帶來點點準(zhǔn)確度的提高即可。正如目前的天氣預(yù)報,雖然無法以100%地準(zhǔn)確,但已經(jīng)帶給人類社會以最大限度的幫助了。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }