99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁職業(yè)發(fā)展大數(shù)據(jù)時代抽樣的是是非非
大數(shù)據(jù)時代抽樣的是是非非
2015-12-20
收藏

大數(shù)據(jù)時代抽樣的是是非非

現(xiàn)在到處都在談大數(shù)據(jù),相關(guān)的圖書里面舍恩伯格的《大數(shù)據(jù)時代》寫得最精彩也最具影響力,書中明確提出:在大數(shù)據(jù)分析和應(yīng)用中,不應(yīng)著眼于如何使用(隨機)抽樣技術(shù),而應(yīng)該使用大樣本來作為總體數(shù)據(jù)來使用。

大數(shù)據(jù)

  在這個背景下,大數(shù)據(jù)時代還是否需要抽樣技術(shù)以及如何使用抽樣技術(shù)引起了大家的廣泛討論,下面說說個人觀點。

  1. 在條件允許的情況下,收集數(shù)據(jù)階段盡可能獲得更多樣本,使樣本接近于總體的思路是對的。大數(shù)據(jù)時代的到來是由于數(shù)據(jù)收集、存儲和計算這幾方面條件的成熟導(dǎo)致數(shù)據(jù)運行成本的降低,將來數(shù)據(jù)是一種財富、一種資源,因此盡量收集數(shù)據(jù)資源是有意義的。而且抽樣得到的數(shù)據(jù)往往只能回答實現(xiàn)設(shè)定好的問題,而大數(shù)據(jù)不但能回答設(shè)定好的問題,也能回答某些突然出現(xiàn)的問題,數(shù)據(jù)越多越好。

  2. 在已經(jīng)有大數(shù)據(jù)的前提下,使用大樣本數(shù)據(jù)來代替總體還是使用抽樣數(shù)據(jù)來推測總體特征取決于我們要解決的問題。如果以概括總體為目標(biāo),那么抽樣往往是比較好的方式,但這個時候面臨的理論問題和傳統(tǒng)抽樣問題是不同的:以前是如何從總體中隨機抽樣來推斷總體特性,現(xiàn)在面臨的問題是“大樣本數(shù)據(jù)是否是總體的有偏抽樣嗎”?如果是的話,如何使用大樣本數(shù)據(jù)二次生成隨機樣本來推斷總體特性。如果大數(shù)據(jù)分析不像傳統(tǒng)統(tǒng)計分析那樣以洞察總體或群體特征為目標(biāo),而是以每個個體特征分析和應(yīng)用為目的,這個時候直接使用大樣本數(shù)據(jù)數(shù)據(jù)要好些,比如說通過個人搜索、購買等行為預(yù)測行業(yè)趨勢,數(shù)據(jù)的覆蓋面不可能達到百分百,這類應(yīng)用中大數(shù)據(jù)本身就是樣本,但是只要數(shù)量夠大,即使不像傳統(tǒng)抽樣那么經(jīng)過精心挑選,那么就基本上也解決了問題,但此時能明確大樣本數(shù)據(jù)和總體數(shù)據(jù)的偏差往往也是有意義的。

  3. 大數(shù)據(jù)主要表現(xiàn)在數(shù)據(jù)量大和數(shù)據(jù)維度多兩個層面,盡管目前分布式(map-reduce等)和實時處理(流計算,內(nèi)存計算)發(fā)展迅速,但是大數(shù)據(jù)在應(yīng)用過程中如果能采用小抽樣還是會節(jié)省一大筆成本,從效率和成本的角度考慮,適當(dāng)和合理的抽樣是有必要的,因此算法部署環(huán)節(jié)中抽樣算法、增量計算、數(shù)據(jù)維數(shù)縮減等會是大數(shù)據(jù)應(yīng)用中的重要課題,因為這些都會節(jié)省企業(yè)的計算資源。計算資源好比自來水管的水、餐桌上的飯,能省一點是一點。而且考慮到數(shù)據(jù)資源的價值可能會逐漸走高,抽樣算法的低碳環(huán)保會在大數(shù)據(jù)時代大有可為。

  4. 如果要問“在海量數(shù)據(jù)的背景下,原先以在總體隨機抽樣來判斷總體為核心思想的統(tǒng)計學(xué)會不會面臨危機甚至消亡。”,我的答案是不會,只不過現(xiàn)在問題進行了轉(zhuǎn)化,統(tǒng)計學(xué)會主要研究“如何使用過采樣的有偏樣本來估計總體”,就像目前大規(guī)模社交網(wǎng)絡(luò)抽樣中研究的問題那樣。社交網(wǎng)絡(luò)的小數(shù)據(jù)量隨機抽樣往往也比較困難,但是使用隨機行走等方式獲取有偏的大數(shù)據(jù)卻非常容易,因此“大樣本=總體”的思想是錯誤的,理論上再大的局部抽樣可能不如隨機抽樣有代表性。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }