99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據:越發(fā)展,難題越多
大數(shù)據:越發(fā)展,難題越多
2016-05-06
收藏

大數(shù)據:越發(fā)展,難題越多

大數(shù)據這兩年一直是熱詞。發(fā)展中的大數(shù)據確實帶來了很多有用信息,但也使我們遇到越來越多的難題。其中最大的難題就是如何去偽存真,將那些帶來誤導的噪音去除。

因此,發(fā)展中的大數(shù)據需要的不僅是專業(yè)的數(shù)據信息人才,而是需要更多善于和各個領域的大數(shù)據打交道的人,這對統(tǒng)計學的人才培養(yǎng)提出了全新的要求。


大數(shù)據統(tǒng)計 事關我們生活的幸福或痛苦

人人都知道,我們生活中很多事情都與大數(shù)據發(fā)生著關聯(lián)。以我在哈佛大學教的通識課“生活中的統(tǒng)計:你快樂(或痛苦)的幾率”為例。羅曼史就與大數(shù)據和統(tǒng)計學有密切關系?,F(xiàn)在有不少號稱可以幫助大家找到心上人的網站。具體怎么找?通常,網站會做一些調查問卷獲得個人信息。同時調查那些相愛的人與他們個人的興趣愛好、教育背景、家庭情況等有多大的相關性。根據這些搜集到的數(shù)據建立一個統(tǒng)計公式,給出一種概率上的預測。當達到一定概率時,網站就會顯示兩個人匹配。這類統(tǒng)計公式的可靠性建立在大量的數(shù)據上,而它的形成需要用到許多統(tǒng)計的思想和方法,包括設計問卷、抽樣調查、建立模型、分析數(shù)據等等。

另外,酒和巧克力的口感也與大數(shù)據處理有關。因為這兩者中的變量因素特別多,比如天氣、地區(qū)、葡萄品種、采集及釀造的方法等;巧克力的可可產地、天氣、制作方法等。變量越多,不確定性就越多,越需要統(tǒng)計學家們的工作。

需要專業(yè)人才 處理大數(shù)據里的“陷阱”

所謂大數(shù)據,并非越大越美,越大越有價值。現(xiàn)在大數(shù)據研究中,這一點誤導很多人。

比如,在美國抽取一個1000人的抽樣調查。這個調查若是同樣在中國做,要達到同樣精度,需要抽取多少人?美國的人口是3.2億人,中國的人口是美國的4倍多一點。每次我在大學講座問到這個問題,只有10%以下的人說出正確答案–只需抽樣1000人,而絕大多數(shù)人認為抽樣數(shù)必須大于4000。

為什么呢?最簡單的比喻是:喝湯時,要確定湯的咸淡,大多數(shù)人只需要品幾口,并不需要把湯全部喝完。這個判斷的準確性取決于什么?這碗湯的均勻度。喝湯前把整碗湯攪拌一下,然后品嘗幾口,這就是我們所說的隨機取樣。無論是一小碗湯還是一大桶湯,只要攪拌均勻,嘗幾小口就夠了。同樣,去醫(yī)院驗血時,每個人不論是胖是瘦,小孩還是大人,醫(yī)生都只會抽一點點就可以做出判斷。這意味著抽樣調查需要有一定的樣本,但是一旦超過臨界點以后,和母體大小的關系是完全可以忽略的。也就是說,大數(shù)據再大,只要科學抽樣,哪怕只有百分之零點零零幾的均勻抽樣,效果也可以比95%不均勻的數(shù)據好。

所謂大數(shù)據,也不能光看絕對量,并非數(shù)據越多結果越可靠。以現(xiàn)在最熱的個性化治療為例。如果一個藥對95%的人有效,但對我沒有用,那顯然這個95%的數(shù)字對我毫無意義。

一個真實的例子是,在20世紀80年代,英國有一本雜志登了兩種治療腎結石的方法。文章摘要宣稱方法A治療腎結石,成功率是78%;用方案B的話,成功率是83%。在沒有其他信息的情況下,任何人都會認為B方案治療效果更好。但是仔細閱讀那篇文章,你會發(fā)現(xiàn)當研究人員把病人分成大結石和小結石兩組時,方案A比方案B在每組里的成功率都要高。

為什么會出現(xiàn)這樣似乎令人困惑的所謂“辛普生悖論”?我們應該如何運用這樣的數(shù)據去選擇我們個人的治療方案?這些新的問題會隨著大數(shù)據的發(fā)展越來越多地呈現(xiàn)在我們面前。而且這些都是傳統(tǒng)的統(tǒng)計學科中不太會遇到的難題。大數(shù)據中這類難題越來越多,這對我們大數(shù)據研究帶來了越來越多的挑戰(zhàn),當然也為我們的人才培養(yǎng)帶來了更多的挑戰(zhàn)。


范劍青:找到更高效方法,解決社會問題和科學問題

普林斯頓大學運籌與金融工程系主任、臺灣中研院院士

大數(shù)據伴隨著技術與信息的革命應運而生,近年來發(fā)展非常迅速。大數(shù)據發(fā)展過程中出現(xiàn)的種種問題也使得一些新的統(tǒng)計思想出現(xiàn),對統(tǒng)計方法也提出了更高要求。

所謂中國人有中國夢,美國人有美國夢,統(tǒng)計學家也有統(tǒng)計學家的夢。大數(shù)據時代,統(tǒng)計學家的夢是找到一些有效的可快速實現(xiàn)的統(tǒng)計方法來解決社會問題和科學挑戰(zhàn)。

大數(shù)據是信息礦山,有待挖掘與提煉。它是管理決策、商務投資的基因,也是科學技術發(fā)展的基石。

大數(shù)據,顧名思義,就是大而復雜的數(shù)據?;ヂ?lián)網、生命科學、工程科學、自然科學、社會學、經濟學等都是最先實現(xiàn)大數(shù)據化的學科,現(xiàn)在人文、歷史學也都數(shù)據化了。大數(shù)據是刻畫當今科學研究與決策的前沿。

大數(shù)據有多大?若假設個人電腦的硬盤容量是1TB,2003年全世界數(shù)據大約可裝滿5百萬臺電腦,現(xiàn)在能裝滿80億臺,到2020年,全世界數(shù)據預計能裝滿400億臺電腦。這些數(shù)據之大可想而知了。

大數(shù)據研究是非常有前途的領域。它首先可以為個體化服務提供巨大的便利。科學家們最先想到的是精準醫(yī)療,比如,化療對某些人群有用,對某些人群卻有害,這就需要我們考慮引入大數(shù)據進行變量的分析??裳芯康淖兞坑泻芏?,比如環(huán)境因素、個體基因、以及它們的交互作用等,而且人體本身也有很大差異,所以需要從大數(shù)據中進行分析和推斷。以前醫(yī)生在一千個病例中看到一個異常值,但不清楚這是特例還是有科學價值的。如今,在一百萬個病例中見到一千次異常值,我們就會知道,這些病人需要個體化治療了。大量的變元和個體的異樣性,是研究大數(shù)據最本質的難點。

大數(shù)據是經濟的新資源,發(fā)展的新引擎。數(shù)據越大,也越容易產生新的問題。也越需要新的解決方案。這就需要有效的嶄新的統(tǒng)計學習方法和思想來解決。

大數(shù)據分析,既可風險預測,也可尋求因果。比如根據健康大數(shù)據預測人體最可能患的疾病,預測最可能得哪一類癌癥,這就是大數(shù)據下的風險度量。除了預測,人類還希望知道各個因素之間的自變量與因變量的科學關系,從而達到治療與控制的目的,這是大數(shù)據更高一層的應用。

當我們利用大數(shù)據進行預測時,最需要解決的是噪音疊加問題。因為大數(shù)據涉及到幾萬個、幾百萬個乃至數(shù)百億個變量,這就意味著如果每一個變量都造成一點點誤差,最后的預測會是很多誤差的疊加,亦即失之毫厘,差之千里。

例如我們有3000支股票,要做投資選擇的話,至少要分析兩兩之間的相關系數(shù),3000支股票的相關系數(shù)矩陣中有450萬個參數(shù),如果對這450萬個參數(shù)進行估計,就會導致最后的估計誤差很大。因此,對大數(shù)據的處理最關鍵的是合理地處理這些變量,將投資風險減少到10%左右。只有在這樣低的風險下,投資才能轉化成回報。這就是我們通常說的量化投資,量化投資首先是利用市場存在局部的無效性,從中得到套利。例如百度的大數(shù)據金融聲稱他們利用股票搜索的關注度和傳統(tǒng)金融理論進行股票投資,可以做得比大市要好得多。如果真是這樣的情況,那么最重要的理由就是——大數(shù)據金融的量化投資,從關注度中找到新的風險因子。

中國乃至全世界的市場都證明,量化投資仍然有很多套利可尋。中國市場尤其如此——因為美國市場通過統(tǒng)計來量化投資套利的人數(shù)比較多,因此獲利空間會相對少,而中國這樣的人相對少一些,所以獲利的機會就多。當然,大數(shù)據金融對實體經濟有更直接的影響,那就是個人對個人(PtoP)的融資。人們利用大數(shù)據來對貸款人償還能力進行評估,從而得到合理的風險回報。

大數(shù)據來預測,是通過電腦和統(tǒng)計模型來解決,這包括機器學習領域最潮的“深度學習”。如果要預測股票指數(shù),預測宏觀經濟的指標,通過機器的“深度學習”,結合統(tǒng)計建模的新方法,可以達到良好的效果。


數(shù)據分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調,回調的第一個參數(shù)驗證碼對象,之后可以使用它調用相應的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }