99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話:13121318867

登錄
首頁(yè)精彩閱讀文本分類和聚類有什么區(qū)別
文本分類和聚類有什么區(qū)別
2017-12-10
收藏

文本分類聚類有什么區(qū)別

簡(jiǎn)單點(diǎn)說(shuō):分類是將一篇文章或文本自動(dòng)識(shí)別出來(lái),按照已經(jīng)定義好的類別進(jìn)行匹配,確定。聚類就是將一組的文章或文本信息進(jìn)行相似性的比較,將比較相似的文章或文本信息歸為同一組的技術(shù)。分類和聚類都是將相似對(duì)象歸類的過(guò)程。區(qū)別是,分類是事先定義好類別,類別數(shù)不變。分類器需要由人工標(biāo)注的分類訓(xùn)練語(yǔ)料訓(xùn)練得到,屬于有指導(dǎo)學(xué)習(xí)范疇。聚類則沒(méi)有事先預(yù)定的類別,類別數(shù)不確定。聚類不需要人工標(biāo)注和預(yù)先訓(xùn)練分類器,類別在聚類過(guò)程中自動(dòng)生成。分類適合類別或分類體系已經(jīng)確定的場(chǎng)合,比如按照國(guó)圖分類法分類圖書;聚類則適合不存在分類體系、類別數(shù)不確定的場(chǎng)合,一般作為某些應(yīng)用的前端,比如多文檔文摘、搜索引擎結(jié)果后聚類(元搜索)等。
  分類(classification )是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。分類技術(shù)在數(shù)據(jù)挖掘中是一項(xiàng)重要任務(wù),目前商業(yè)上應(yīng)用最多。分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)類中。
  要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可表示為:(v1,v2,...,vn; c);其中vi表示字段值,c表示類別。分類器的構(gòu)造方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等等。
  不同的分類器有不同的特點(diǎn)。有三種分類器評(píng)價(jià)或比較尺度:1)預(yù)測(cè)準(zhǔn)確度;2)計(jì)算復(fù)雜度;3)模型描述的簡(jiǎn)潔度。預(yù)測(cè)準(zhǔn)確度是用得最多的一種比較尺度,特別是對(duì)于預(yù)測(cè)型分類任務(wù)。計(jì)算復(fù)雜度依賴于具體的實(shí)現(xiàn)細(xì)節(jié)和硬件環(huán)境,在數(shù)據(jù)挖掘中,由于操作對(duì)象是巨量的數(shù)據(jù),因此空間和時(shí)間的復(fù)雜度問(wèn)題將是非常重要的一個(gè)環(huán)節(jié)。對(duì)于描述型的分類任務(wù),模型描述越簡(jiǎn)潔越受歡迎。
  另外要注意的是,分類的效果一般和數(shù)據(jù)的特點(diǎn)有關(guān),有的數(shù)據(jù)噪聲大,有的有空缺值,有的分布稀疏,有的字段或?qū)傩蚤g相關(guān)性強(qiáng),有的屬性是離散的而有的是連續(xù)值或混合式的。目前普遍認(rèn)為不存在某種方法能適合于各種特點(diǎn)的數(shù)據(jù)
  聚類(clustering)是指根據(jù)“物以類聚”原理,將本身沒(méi)有類別的樣本聚集成不同的組,這樣的一組數(shù)據(jù)對(duì)象的集合叫做簇,并且對(duì)每一個(gè)這樣的簇進(jìn)行描述的過(guò)程。它的目的是使得屬于同一個(gè)簇的樣本之間應(yīng)該彼此相似,而不同簇的樣本應(yīng)該足夠不相似。與分類規(guī)則不同,進(jìn)行聚類前并不知道將要?jiǎng)澐殖蓭讉€(gè)組和什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來(lái)定義組。其目的旨在發(fā)現(xiàn)空間實(shí)體的屬性間的函數(shù)關(guān)系,挖掘的知識(shí)用以屬性名為變量的數(shù)學(xué)方程來(lái)表示。聚類技術(shù)正在蓬勃發(fā)展,涉及范圍包括數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、空間數(shù)據(jù)庫(kù)技術(shù)、生物學(xué)以及市場(chǎng)營(yíng)銷等領(lǐng)域,聚類分析已經(jīng)成為數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)非常活躍的研究課題。常見(jiàn)的聚類算法包括:K-均值聚類算法、K-中心點(diǎn)聚類算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。關(guān)鍵詞:文本分類 文本聚類 數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí)

數(shù)據(jù)分析咨詢請(qǐng)掃描二維碼

若不方便掃碼,搜微信號(hào):CDAshujufenxi

數(shù)據(jù)分析師資訊
更多

OK
客服在線
立即咨詢
客服在線
立即咨詢
') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機(jī)數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進(jìn)行初始化 // 參數(shù)1:配置參數(shù) // 參數(shù)2:回調(diào),回調(diào)的第一個(gè)參數(shù)驗(yàn)證碼對(duì)象,之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個(gè)配置參數(shù)為必須,不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺(tái)檢測(cè)極驗(yàn)服務(wù)器是否宕機(jī) new_captcha: data.new_captcha, // 用于宕機(jī)時(shí)表示是新驗(yàn)證碼的宕機(jī) product: "float", // 產(chǎn)品形式,包括:float,popup width: "280px", https: true // 更多配置參數(shù)說(shuō)明請(qǐng)參見(jiàn):http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計(jì)時(shí)完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請(qǐng)輸入'+oInput.attr('placeholder')+'!'; var errTxt = '請(qǐng)輸入正確的'+oInput.attr('placeholder')+'!'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }