99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁職業(yè)發(fā)展大數(shù)據(jù)下的統(tǒng)計學(xué):問題優(yōu)先而非解法優(yōu)先
大數(shù)據(jù)下的統(tǒng)計學(xué):問題優(yōu)先而非解法優(yōu)先
2015-11-09
收藏

大數(shù)據(jù)下的統(tǒng)計學(xué):問題優(yōu)先而非解法優(yōu)先


在大數(shù)據(jù)時代,統(tǒng)計學(xué)應(yīng)當(dāng)如何發(fā)揮它的優(yōu)勢?很多統(tǒng)計學(xué)家都在探討這個問題,包括Steve M. 和Larry W. 也在他們的博客探討了有關(guān)的內(nèi)容。而筆者的科研方向主要是研究基因組學(xué),也通常被列為統(tǒng)計學(xué)和統(tǒng)計學(xué)家發(fā)揮巨大作用的“大數(shù)據(jù)”的領(lǐng)域之一,所以對這個問題也思考了一段時間。

一個自然而然的問題就是:“為什么在基因?qū)W研究中,統(tǒng)計學(xué)家可以取得如此大的成功?”筆者這里想借用Brian C.的一句話來解釋:Problem first, not solution backward (問題優(yōu)先而非解法優(yōu)先)

在當(dāng)下,“大數(shù)據(jù)”這個詞的廣泛應(yīng)用得益于數(shù)據(jù)的獲取變得越來越便宜。一個例子就是DNA序列掃描的價格。在其他領(lǐng)域中也是一樣,例如人體運動的數(shù)據(jù)記錄,F(xiàn)itbits,Google books,Twitter上的社交網(wǎng)絡(luò)數(shù)據(jù)等等。這些數(shù)據(jù)的獲取或許在十年前有著令人生畏的價格,但現(xiàn)在卻絕非難事。

作為一名統(tǒng)計學(xué)家,我們希望從這些非常不同的領(lǐng)域中尋找大數(shù)據(jù)普適的原則:

1.這些數(shù)據(jù)都無法在一個簡單的筆記本電腦上進(jìn)行分析(不論從幾千兆到兆兆字節(jié))。

2.這些數(shù)據(jù)形式復(fù)雜,結(jié)構(gòu)龐雜,如有非結(jié)構(gòu)化的文字信息,有缺失很多數(shù)據(jù)的json文件,含有質(zhì)量指標(biāo)的fastq文件等等等等。

那么為什么在基因研究中,統(tǒng)計學(xué)家能取得如此大的成功呢?在筆者看來,很多原因就是干這一行的統(tǒng)計學(xué)家愿意花上很長的時間,去處理那些很細(xì)節(jié)的數(shù)據(jù)問題。比如,在大數(shù)據(jù)上運行哪怕是最為簡單的統(tǒng)計模型,也要花上數(shù)個小時的時間,抑或處理一個得到的基因序列并對它們進(jìn)行必要的修復(fù)也同樣是非常耗時耗力。正因為愿意去花時間理解并處理這些很實際的、很細(xì)節(jié)的問題,統(tǒng)計學(xué)家才能得到那些別人無法得到的數(shù)據(jù),才使得統(tǒng)計學(xué)家在基因?qū)W科上取得了今天的成就。

這些事情并不輕松,也并不“高雅”。很多統(tǒng)計學(xué)家也不稱之為“統(tǒng)計”。Steve在他的博客中提到:“坦誠地說,我對于現(xiàn)在的統(tǒng)計學(xué)很少能提出有價值的新觀點表示失望。”我想,他的觀點是有很多統(tǒng)計學(xué)家贊同的。大意是說由于在大數(shù)據(jù)上面目前沒有什么好的理論提出,所以在大數(shù)據(jù)方面也就沒什么值得稱為上乘的“新觀點”。他們的這種觀點就是solution backward (解法優(yōu)先):我們需要漂亮的理論,然后把它應(yīng)用到具體問題。

與之不同,我們提出的方式,就是problemforward (問題優(yōu)先)。正因為當(dāng)下得到數(shù)據(jù)變得越來越便宜,我們也就可以分析和學(xué)習(xí)很多以前無法完成的課題。計算機(jī)科學(xué),物理學(xué),生物基因以及其他一些領(lǐng)域在大數(shù)據(jù)上面一直保持領(lǐng)先正因為他們的研究者在數(shù)據(jù)分析上并不一定需要一個統(tǒng)計上“完美”的解答。他們更關(guān)注有科學(xué)意義的問題并愿意花時間,精力去處理那些繁瑣的“大數(shù)據(jù)”來進(jìn)行分析,從而達(dá)到目的。因此,他們能獲得別人從未研究過的數(shù)據(jù)并從中提煉有價值的部分。

在基因?qū)W科中就有著很好的例子。DNA晶片的發(fā)明,對這個領(lǐng)域產(chǎn)生了革命性的影響。而后統(tǒng)計學(xué)家進(jìn)入這個領(lǐng)域。他們和其他科研人員一起為了同樣的科學(xué)問題,在實際數(shù)據(jù)上投入了大量的時間,精力來完成數(shù)據(jù)處理,或者開發(fā)能夠處理數(shù)據(jù)的軟件。在筆者看來,想要在大數(shù)據(jù)時代真正做出成果,首先要專注于那些有意義的科學(xué)問題,然后才是提出能解決科學(xué)問題的統(tǒng)計方法。這就需要我們重新去思考統(tǒng)計學(xué)。那些比如并行計算,數(shù)據(jù)再加工,數(shù)據(jù)可復(fù)制性,軟件開發(fā)等等問題,其實和純統(tǒng)計理論方法同樣的重要。

當(dāng)然,在大數(shù)據(jù)時代,統(tǒng)計學(xué)有著廣泛的發(fā)揮空間,用我們獨特的技能去處理這些新問題中的不確定性,但是這一切的前提都是我們要首先愿意去為了科學(xué)目標(biāo)來處理那些關(guān)于數(shù)據(jù)方面繁瑣的工作。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時表示是新驗證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }