99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁精彩閱讀大數(shù)據(jù)也有小應(yīng)用_數(shù)據(jù)分析師培訓
大數(shù)據(jù)也有小應(yīng)用_數(shù)據(jù)分析師培訓
2015-03-20
收藏

大數(shù)據(jù)也有小應(yīng)用_數(shù)據(jù)分析師培訓


隨著信息技術(shù)的快速發(fā)展,近來, 大數(shù)據(jù)及以之為基礎(chǔ)的研究范式——大數(shù)據(jù)范式 (big data paradigm)——成為了越來越流行的概念。 雖說大數(shù)據(jù)的 “大” 乃是相對概念, 即相對于數(shù)據(jù)存儲和處理技術(shù)而言的 “大”, 從而并無絕對意義, 但這幾年很多人對相對于當前技術(shù)而言的 “大” 似乎產(chǎn)生了特殊感覺, 認為它已超越了某種臨界值, 將引發(fā)諸多領(lǐng)域的重大、 甚至革命性的變革。 每當有大的新東西出現(xiàn)在地平線上時, 這種稍顯迫不及待的迎接革命的感覺乃是常見的衍生現(xiàn)象, 其可靠性往往大可商榷。 不過, 大數(shù)據(jù)有著各種各樣的具體應(yīng)用倒是不爭的事實。

  在本文中, 我們就來介紹一項小應(yīng)用。

  嚴格講, 本文的標題有些 “拉大旗作虎皮”, 因為這項小應(yīng)用所涉及的數(shù)據(jù)相對于當前技術(shù)而言遠遠算不上 “大” (因此我們對 “大數(shù)據(jù)” 一詞加了引號), 不過它所采用的以數(shù)據(jù)關(guān)聯(lián)為核心, 將因果置一旁的做法乃是大數(shù)據(jù)范式中的典型方法, 而且這項小應(yīng)用規(guī)模雖小, 畢竟也需動用計算機, 從而在手段上跟大數(shù)據(jù)范式也算搭界。

  這項小應(yīng)用就是確定某些歷史文件的年代。

  確定歷史文件的年代一向是史學家們關(guān)心且必須要做的事情, 因為很多資料只有確定了年代才能發(fā)揮應(yīng)有的作用。 但由于不難想象的種種原因, 很多歷史文件的年代是未知的。 為確定這類文件的年代, 一種典型的做法是求助于碳-14 年代測定法。 但是, 由此測定的年代往往有幾十年的誤差, 對遠古文件也許不算什么, 對近代文件卻稍嫌粗糙。 此外, 這種方法有時還會對文件產(chǎn)生一定程度的破壞。 除碳-14 年代測定法外, 利用紙張、 油墨等技術(shù)的演進歷史, 從文件所用的紙張或油墨的類型上確定年代也是常用方法, 但可惜誤差往往也在幾十年以上。 這些方法的不盡如人意之處, 使得其它方法有了用武之地。 最近, 加拿大多倫多大學的研究者蒂拉亨等人就示范了一種新方法。

  蒂拉亨等人的研究對象是英國中世紀 時期的大量契據(jù)。 那些契據(jù)大都為拉丁文, 記錄的是各類財產(chǎn)及土地的交易, 對研究中世紀時期的英國歷史有不小的參考價值。 不過, 在現(xiàn)存百萬份以上的契據(jù)中, 大部分是既沒有標注年代, 也無法從所述內(nèi)容中推斷出年代的。 另一方面, 中世紀距今不過幾百年, 前面提到的那些方法的幾十年誤差相對來說就顯得很大, 而且上百萬份的巨大數(shù)量也使那些方法變得不太現(xiàn)實。 為此, 蒂拉亨等人采用了一種新方法。 他們以幾千份年代已知的契據(jù)為基準, 對年代未知的契據(jù)與年代已知的契據(jù)中詞匯及詞組的分布規(guī)律進行統(tǒng)計對比, 由此分析出前者與不同年代的后者之間的相似程度, 并以此確定前者最有可能的年代 (即相似程度最大的年代); 或者, 也可以先由后者估算出不同詞匯及詞組在不同年代的出現(xiàn)概率, 再以它們在前者中的出現(xiàn)數(shù)量估算出前者在各個年代的出現(xiàn)概率, 進而確定最有可能的年代 (即出現(xiàn)概率最大的年代)。

  這類方法的準確度如何呢? 蒂拉亨等人用一個很聰明的方法進行了測算, 那就是將之應(yīng)用到年代已知的文件上, 將估算結(jié)果與實際年代進行比較。 他們發(fā)現(xiàn), 這種估算的平均誤差可縮小至 10 年以下, 從而比前面提到的那些方法更精確。

  當然, 這種方法中也有許多不確定性, 比如契據(jù)之間的相似程度, 契據(jù)在不同年代的出現(xiàn)概率等都并無唯一定義, 統(tǒng)計對比所用的算法也不唯一。 這些不確定性在大數(shù)據(jù)范式中是很常見的, 它們有弊也有利。 “弊” 者在于理據(jù)不像碳-14 年代測定法之類的方法那樣明晰; “利” 者則在于提供了改進方法所需的額外自由度。 事實上, 蒂拉亨等人的研究本身就是這種額外自由度的體現(xiàn), 因為他們并不是這類方法的創(chuàng)始人, 而只是利用不確定性所提供的額外自由度, 引進了新的定義及算法。

  蒂拉亨等人所示范的方法也適用于其它時期或其它類型的文件, 并且除了幫助確定年代外, 還有助于確定與文件有關(guān)的其它屬性。

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼,搜微信號:CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個參數(shù)驗證碼對象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說明請參見:http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }