99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀大數(shù)據(jù)與拓?fù)鋵W(xué)共通的一些分析算法_數(shù)據(jù)分析師
大數(shù)據(jù)與拓?fù)鋵W(xué)共通的一些分析算法_數(shù)據(jù)分析師
2015-01-07
收藏

大數(shù)據(jù)與拓?fù)鋵W(xué)共通的一些分析算法_數(shù)據(jù)分析師


抽象大型數(shù)據(jù)集的學(xué)習(xí)一般從兩個(gè)名稱開(kāi)始:數(shù)據(jù)挖掘(Data mining),脫胎于統(tǒng)計(jì)學(xué)領(lǐng)域,研究組織和總結(jié)高維數(shù)據(jù)的方式,以便于人類更容易理解這些數(shù)據(jù);機(jī)器學(xué)習(xí)(Machine Learning),計(jì)算機(jī)科學(xué)的一個(gè)分支(特別是人工智能),為了達(dá)到讓計(jì)算機(jī)作出決定的目標(biāo),尋找計(jì)算機(jī)組織和總結(jié)數(shù)據(jù)的方式。這兩個(gè)領(lǐng)域有許多共同點(diǎn),但是我不會(huì)試圖對(duì)它們加以區(qū)分,還有這些方法在不同學(xué)科中應(yīng)用的名詞,如生物信息學(xué)和化學(xué)信息學(xué)。還有眾人皆知的在市場(chǎng)營(yíng)銷上的應(yīng)用,它可以讓店主提前知道你將購(gòu)買什么。

收集的數(shù)據(jù)通常是一組有序的N元組,它們來(lái)自科學(xué)實(shí)驗(yàn)、調(diào)查或者零售商收集關(guān)于每次你使用信用卡的信息等等。其中一些可以看做是帶有標(biāo)簽的——例如特殊實(shí)驗(yàn)的代號(hào),其它的如坐標(biāo)和尺寸通常叫做特征(features),如果這些特征是數(shù)字,那么我們可以認(rèn)為它們是歐式空間的定義向量,這樣我們就初次瞥見(jiàn)了幾何學(xué)。然而,對(duì)于高維數(shù)據(jù),歐式度量的結(jié)果是有問(wèn)題的,因此我們常常要使用不同的度量方式。歐式度量在分析具有二元特征的數(shù)據(jù)上也是有問(wèn)題的,例如,同一有機(jī)體不同基因存在的問(wèn)題。

因此,我們常常要考慮數(shù)據(jù)點(diǎn)的其他度量法。一個(gè)Kernel是一次非線性原始向量空間向更高維向量空間的嵌入過(guò)程,它允許在圖像空間上使用拉回度量,但是,在實(shí)踐中,嵌入過(guò)程不是用來(lái)計(jì)算的,僅僅促使度量信息的產(chǎn)生。

考慮使用相似測(cè)量(非度量)有時(shí)也是有效的:區(qū)間從1到0,當(dāng)兩個(gè)點(diǎn)相同時(shí)用1表示,當(dāng)不同時(shí)用0表示。歐式度量的高斯函數(shù)是一個(gè)非常流行的相似測(cè)量方式。還有非數(shù)值數(shù)據(jù),可根據(jù)具體的情況使用不同的度量法進(jìn)行分析,暫時(shí)先不要關(guān)心它。

通常這些數(shù)據(jù)是從概率分布的向量空間上隨機(jī)選取的,這種分布應(yīng)該有一個(gè)非常明確的結(jié)構(gòu),例如已本地化的高余維子流形分布(being localized around a positive codimensional submanifold),但是由于數(shù)據(jù)中存在噪音,我們一般假設(shè)分布支持的是一個(gè)開(kāi)發(fā)集,當(dāng)然,我們不會(huì)讓這些有限的多個(gè)數(shù)據(jù)點(diǎn)是支持離散分布的,否則將會(huì)是一個(gè)過(guò)度擬合(overfitting)的例子,任何模型都應(yīng)該避免這種情況的出現(xiàn)。

這里有四個(gè)比較具體的研究人員試圖了解大型數(shù)據(jù)集的方法以及一些常用的算法。這些方法和算法有許多變數(shù),但是這個(gè)表單至少是個(gè)良好的開(kāi)端。我將在后續(xù)的帖子中更詳盡的描述他們。

1)投影——找一個(gè)從原始向量空間到低維空間(例如水平面)盡可能少的扭曲點(diǎn)與點(diǎn)之間關(guān)系的函數(shù),當(dāng)然,盡可能的線性投影,但是找到一個(gè)好的線性投影可不是一個(gè)平凡的工作。線性投影最流行的做法似乎是主成分分析法。如拓?fù)鋵W(xué),不過(guò),我們可以想像線性預(yù)測(cè)潛在問(wèn)題,特別是拓?fù)溆腥ぜ?。自組織映射圖(有時(shí)稱為Kohonen map)產(chǎn)生一個(gè)本地/分段線性投影,似乎更像拓?fù)渎暭y。更普遍的是,人們可以嘗試投到一個(gè)更有趣的拓?fù)涞途S流上,這叫做流形學(xué)習(xí)。

2)特征選擇——在一些高維數(shù)據(jù)中,有許多維度是噪音數(shù)據(jù)。特征選擇是找出那些具有高信噪比的問(wèn)題。統(tǒng)計(jì)學(xué)方法可以逐個(gè)的檢查特征/尺寸,但往往最好是一下子能看到特征的子集。從拓?fù)鋵W(xué)觀點(diǎn),這僅僅是有限的線性投影形式,但是在實(shí)際中往往是一個(gè)單獨(dú)的問(wèn)題類型。特別是人們普遍要投射到兩維或者三維的情況,但是對(duì)于特征選擇,可以選擇超過(guò)兩個(gè)或者三個(gè)的特征。 這兩個(gè)問(wèn)題往往是進(jìn)入下面兩個(gè)之一的前奏:

3)分類——這個(gè)問(wèn)題和機(jī)器學(xué)習(xí)密切相關(guān),通常被叫做監(jiān)督學(xué)習(xí):一組帶有標(biāo)簽的收集數(shù)據(jù),這些標(biāo)簽告訴你它從哪兒來(lái);另一組沒(méi)有標(biāo)簽的收集數(shù)據(jù),決定哪個(gè)標(biāo)簽最適合他們,這就是“學(xué)習(xí)”,因?yàn)槟憧梢酝ㄟ^(guò)思考標(biāo)記的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練——你告訴計(jì)算機(jī)在不同情形下對(duì)于集合中每個(gè)元素應(yīng)該做什么樣的決定。然后電腦必須自己決定在其余的情況下該做什么,通常,人們要基于標(biāo)簽數(shù)據(jù)建立一個(gè)合理的模型,然后拋出原始數(shù)據(jù)并歸納出基于這個(gè)模型新問(wèn)題。尤其是,經(jīng)常要權(quán)衡是制造一個(gè)拓?fù)涞摹⒓舛说哪P瓦€是造一個(gè)計(jì)算廉價(jià)的。但是,如上所述,這個(gè)模型必須避免過(guò)度擬合。有許多不同的方法來(lái)解決這個(gè)問(wèn)題。

4)聚類——這是一個(gè)基于幾何學(xué)來(lái)分隔數(shù)據(jù)(未標(biāo)記)為小數(shù)量集的問(wèn)題。它是數(shù)據(jù)挖掘的核心問(wèn)題,盡管在機(jī)器學(xué)習(xí)中它歸入非監(jiān)督學(xué)習(xí),即與非標(biāo)記的數(shù)據(jù)工作。關(guān)于這個(gè)的一個(gè)流行算法是K-means,它假設(shè)概率分布是以K點(diǎn)為中心的高斯總和(a sum of Gaussians),并且嘗試去找到這些點(diǎn)。這個(gè)算法由于計(jì)算效率而聞名,但是常常返回?zé)o用結(jié)果集。一個(gè)更合理做法是形成一個(gè)頂點(diǎn)是這些數(shù)據(jù)點(diǎn)的圖形,用邊連接點(diǎn)距低于一個(gè)給定閾值的點(diǎn)(或者高于一個(gè)給定閾值的點(diǎn))。這個(gè)聚類問(wèn)題轉(zhuǎn)換成了一個(gè)圖分隔問(wèn)題——通過(guò)較少的邊分隔成相對(duì)較大的塊。

這些是比較實(shí)際的問(wèn)題,盡管不像我們使用在拓?fù)鋵W(xué)上的,但是有可能是一個(gè)沒(méi)有明確及最終答案的問(wèn)題。相反,每個(gè)問(wèn)題的最佳方法取決于特定的數(shù)據(jù)集和長(zhǎng)期項(xiàng)目分析目標(biāo)。因此,對(duì)于任何的方法,包括拓?fù)鋵W(xué)啟發(fā)的,在適合的情況下都有可能非常有用。

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }