99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀大數(shù)據(jù)下的統(tǒng)計(jì)學(xué)__問(wèn)題優(yōu)先而非解法優(yōu)先
大數(shù)據(jù)下的統(tǒng)計(jì)學(xué)__問(wèn)題優(yōu)先而非解法優(yōu)先
2014-09-03
收藏

                大數(shù)據(jù)時(shí)代,大數(shù)據(jù)、統(tǒng)計(jì)學(xué)應(yīng)當(dāng)如何發(fā)揮它的優(yōu)勢(shì)?很多大數(shù)據(jù)、統(tǒng)計(jì)學(xué)家都在探討這個(gè)問(wèn)題,包括Steve M. 和Larry W. 也在他們的博客探討了有關(guān)的內(nèi)容。而筆者的科研方向主要是研究基因組學(xué),也通常被列為統(tǒng)計(jì)學(xué)和統(tǒng)計(jì)學(xué)家發(fā)揮巨大作用的“大數(shù)據(jù)”的領(lǐng)域之一,所以對(duì)這個(gè)問(wèn) 題也思考了一段時(shí)間。


          一個(gè)自然而然的問(wèn)題就是:“為什么在基因?qū)W研究中,統(tǒng)計(jì)學(xué)家可以取得如此大的成功?”筆者這里想借用Brian C.的一句話來(lái)解釋?zhuān)篜roblem first, not solution backward (問(wèn)題優(yōu)先而非解法優(yōu)先)

在當(dāng)下,“大數(shù)據(jù)”這個(gè)詞的廣泛應(yīng)用得益于數(shù)據(jù)的獲取變得越來(lái)越便宜。一個(gè)例子就是DNA序列掃描的價(jià)格。在其他領(lǐng)域中也是一樣,例如人體運(yùn)動(dòng)的數(shù) 據(jù)記錄,F(xiàn)itbits,Google books,Twitter上的社交網(wǎng)絡(luò)數(shù)據(jù)等等。這些數(shù)據(jù)的獲取或許在十年前有著令人生畏的價(jià)格,但現(xiàn)在卻絕非難事。


作為一名統(tǒng)計(jì)學(xué)家,我們希望從這些非常不同的領(lǐng)域中尋找大數(shù)據(jù)普適的原則:


1.這些數(shù)據(jù)都無(wú)法在一個(gè)簡(jiǎn)單的筆記本電腦上進(jìn)行分析(不論從幾千兆到兆兆字節(jié))。

2.這些數(shù)據(jù)形式復(fù)雜,結(jié)構(gòu)龐雜,如有非結(jié)構(gòu)化的文字信息,有缺失很多數(shù)據(jù)的json文件,含有質(zhì)量指標(biāo)的fastq文件等等等等。


          那么為什么在基因研究中,統(tǒng)計(jì)學(xué)家能取得如此大的成功呢?在筆者看來(lái),很多原因就是干這一行的統(tǒng)計(jì)學(xué)家愿意花上很長(zhǎng)的時(shí)間,去處理那些很細(xì)節(jié)的數(shù)據(jù) 問(wèn)題。比如,在大數(shù)據(jù)上運(yùn)行哪怕是最為簡(jiǎn)單的統(tǒng)計(jì)模型,也要花上數(shù)個(gè)小時(shí)的時(shí)間,抑或處理一個(gè)得到的基因序列并對(duì)它們進(jìn)行必要的修復(fù)也同樣是非常耗時(shí)耗 力。正因?yàn)樵敢馊セ〞r(shí)間理解并處理這些很實(shí)際的、很細(xì)節(jié)的問(wèn)題,統(tǒng)計(jì)學(xué)家才能得到那些別人無(wú)法得到的數(shù)據(jù),才使得統(tǒng)計(jì)學(xué)家在基因?qū)W科上取得了今天的成就。


          這些事情并不輕松,也并不“高雅”。很多統(tǒng)計(jì)學(xué)家也不稱之為“統(tǒng)計(jì)”。Steve在他的博客中提到:“坦誠(chéng)地說(shuō),我對(duì)于現(xiàn)在的統(tǒng)計(jì)學(xué)很少能提出有價(jià) 值的新觀點(diǎn)表示失望?!蔽蚁耄挠^點(diǎn)是有很多統(tǒng)計(jì)學(xué)家贊同的。大意是說(shuō)由于在大數(shù)據(jù)上面目前沒(méi)有什么好的理論提出,所以在大數(shù)據(jù)方面也就沒(méi)什么值得稱為 上乘的“新觀點(diǎn)”。他們的這種觀點(diǎn)就是solution backward (解法優(yōu)先):我們需要漂亮的理論,然后把它應(yīng)用到具體問(wèn)題。


          與之不同,我們提出的方式,就是problemforward (問(wèn)題優(yōu)先)。正因?yàn)楫?dāng)下得到數(shù)據(jù)變得越來(lái)越便宜,我們也就可以分析和學(xué)習(xí)很多以前無(wú)法完成的課題。計(jì)算機(jī)科學(xué),物理學(xué),生物基因以及其他一些領(lǐng)域在大數(shù) 據(jù)上面一直保持領(lǐng)先正因?yàn)樗麄兊难芯空咴跀?shù)據(jù)分析上并不一定需要一個(gè)統(tǒng)計(jì)上“完美”的解答。他們更關(guān)注有科學(xué)意義的問(wèn)題并愿意花時(shí)間,精力去處理那些繁瑣 的“大數(shù)據(jù)”來(lái)進(jìn)行分析,從而達(dá)到目的。因此,他們能獲得別人從未研究過(guò)的數(shù)據(jù)并從中提煉有價(jià)值的部分。


          在基因?qū)W科中就有著很好的例子。DNA晶片的發(fā)明,對(duì)這個(gè)領(lǐng)域產(chǎn)生了革命性的影響。而后統(tǒng)計(jì)學(xué)家進(jìn)入這個(gè)領(lǐng)域。他們和其他科研人員一起為了同樣的科 學(xué)問(wèn)題,在實(shí)際數(shù)據(jù)上投入了大量的時(shí)間,精力來(lái)完成數(shù)據(jù)處理,或者開(kāi)發(fā)能夠處理數(shù)據(jù)的軟件。在筆者看來(lái),想要在大數(shù)據(jù)時(shí)代真正做出成果,首先要專(zhuān)注于那些 有意義的科學(xué)問(wèn)題,然后才是提出能解決科學(xué)問(wèn)題的統(tǒng)計(jì)方法。這就需要我們重新去思考統(tǒng)計(jì)學(xué)。那些比如并行計(jì)算,數(shù)據(jù)再加工,數(shù)據(jù)可復(fù)制性,軟件開(kāi)發(fā)等等問(wèn) 題,其實(shí)和純統(tǒng)計(jì)理論方法同樣的重要。


          當(dāng)然,在大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)學(xué)有著廣泛的發(fā)揮空間,用我們獨(dú)特的技能去處理這些新問(wèn)題中的不確定性,但是這一切的前提都是我們要首先愿意去為了科學(xué)目標(biāo)來(lái)處理那些關(guān)于數(shù)據(jù)方面繁瑣的工作。


數(shù)據(jù)分析師

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }