99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

熱線電話：13121318867

登錄

首頁精彩閱讀文本主題模型之潛在語義索引(LSI)

文本主題模型之潛在語義索引(LSI)

2017-12-22

文本主題模型之潛在語義索引(LSI)

在文本挖掘中，主題模型是比較特殊的一塊，它的思想不同于我們常用的機器學習算法，因此這里我們需要專門來總結(jié)文本主題模型的算法。本文關(guān)注于潛在語義索引算法(LSI)的原理。

1. 文本主題模型的問題特點

在數(shù)據(jù)分析中，我們經(jīng)常會進行非監(jiān)督學習的聚類算法，它可以對我們的特征數(shù)據(jù)進行非監(jiān)督的聚類。而主題模型也是非監(jiān)督的算法，目的是得到文本按照主題的概率分布。從這個方面來說，主題模型和普通的聚類算法非常的類似。但是兩者其實還是有區(qū)別的。

聚類算法關(guān)注于從樣本特征的相似度方面將數(shù)據(jù)聚類。比如通過數(shù)據(jù)樣本之間的歐式距離，曼哈頓距離的大小聚類等。而主題模型，顧名思義，就是對文字中隱含主題的一種建模方法。比如從“人民的名義”和“達康書記”這兩個詞我們很容易發(fā)現(xiàn)對應(yīng)的文本有很大的主題相關(guān)度，但是如果通過詞特征來聚類的話則很難找出，因為聚類方法不能考慮到到隱含的主題這一塊。

那么如何找到隱含的主題呢？這個一個大問題。常用的方法一般都是基于統(tǒng)計學的生成方法。即假設(shè)以一定的概率選擇了一個主題，然后以一定的概率選擇當前主題的詞。最后這些詞組成了我們當前的文本。所有詞的統(tǒng)計概率分布可以從語料庫獲得，具體如何以“一定的概率選擇”，這就是各種具體的主題模型算法的任務(wù)了。

當然還有一些不是基于統(tǒng)計的方法，比如我們下面講到的LSI。

2. 潛在語義索引(LSI)概述

潛在語義索引(Latent Semantic Indexing,以下簡稱LSI)，有的文章也叫Latent Semantic Analysis（LSA）。其實是一個東西，后面我們統(tǒng)稱LSI，它是一種簡單實用的主題模型。LSI是基于奇異值分解（SVD）的方法來得到文本的主題的。而SVD及其應(yīng)用我們在前面的文章也多次講到，比如：奇異值分解(SVD)原理與在降維中的應(yīng)用和矩陣分解在協(xié)同過濾推薦算法中的應(yīng)用。如果大家對SVD還不熟悉，建議復(fù)習奇異值分解(SVD)原理與在降維中的應(yīng)用后再讀下面的內(nèi)容。

這里我們簡要回顧下SVD：對于一個m×n的矩陣A，可以分解為下面三個矩陣：

Am×n=Um×mΣm×nVn×nT

有時為了降低矩陣的維度到k，SVD的分解可以近似的寫為：

Am×n≈Um×kΣk×kVk×nT

如果把上式用到我們的主題模型，則SVD可以這樣解釋：我們輸入的有m個文本，每個文本有n個詞。而Aij則對應(yīng)第i個文本的第j個詞的特征值，這里最常用的是基于預(yù)處理后的標準化TF-IDF值。k是我們假設(shè)的主題數(shù)，一般要比文本數(shù)少。SVD分解后，Uil對應(yīng)第i個文本和第l個主題的相關(guān)度。Vjm對應(yīng)第j個詞和第m個詞義的相關(guān)度。Σlm對應(yīng)第l個主題和第m個詞義的相關(guān)度。

也可以反過來解釋：我們輸入的有m個詞，對應(yīng)n個文本。而Aij則對應(yīng)第i個詞檔的第j個文本的特征值，這里最常用的是基于預(yù)處理后的標準化TF-IDF值。k是我們假設(shè)的主題數(shù)，一般要比文本數(shù)少。SVD分解后，Uil對應(yīng)第i個詞和第l個詞義的相關(guān)度。Vjm對應(yīng)第j個文本和第m個主題的相關(guān)度。Σlm對應(yīng)第l個詞義和第m個主題的相關(guān)度。

這樣我們通過一次SVD，就可以得到文檔和主題的相關(guān)度，詞和詞義的相關(guān)度以及詞義和主題的相關(guān)度。

3. LSI簡單實例

這里舉一個簡單的LSI實例，假設(shè)我們有下面這個有10個詞三個文本的詞頻TF對應(yīng)矩陣如下：

這里我們沒有使用預(yù)處理，也沒有使用TF-IDF，在實際應(yīng)用中最好使用預(yù)處理后的TF-IDF值矩陣作為輸入。

我們假定對應(yīng)的主題數(shù)為2，則通過SVD 降維后得到的三矩陣為：

從矩陣Uk我們可以看到詞和詞義之間的相關(guān)性。而從Vk可以看到3個文本和兩個主題的相關(guān)性。大家可以看到里面有負數(shù)，所以這樣得到的相關(guān)度比較難解釋。

4. LSI用于文本相似度計算

在上面我們通過LSI得到的文本主題矩陣可以用于文本相似度計算。而計算方法一般是通過余弦相似度。比如對于上面的三文檔兩主題的例子。我們可以計算第一個文本和第二個文本的余弦相似度如下：

sim(d1,d2)=(?0.4945)?(?0.6458)+(0.6492)?(?0.7194)(?0.4945)2+0.64922(?0.6458)2+(?0.7194)2

5. LSI主題模型總結(jié)

LSI是最早出現(xiàn)的主題模型了，它的算法原理很簡單，一次奇異值分解就可以得到主題模型，同時解決詞義的問題，非常漂亮。但是LSI有很多不足，導(dǎo)致它在當前實際的主題模型中已基本不再使用。

主要的問題有：

1） SVD計算非常的耗時，尤其是我們的文本處理，詞和文本數(shù)都是非常大的，對于這樣的高維度矩陣做奇異值分解是非常難的。

2）主題值的選取對結(jié)果的影響非常大，很難選擇合適的k值。

3） LSI得到的不是一個概率模型，缺乏統(tǒng)計基礎(chǔ)，結(jié)果難以直觀的解釋。

對于問題1），主題模型非負矩陣分解（NMF）可以解決矩陣分解的速度問題。對于問題2），這是老大難了，大部分主題模型的主題的個數(shù)選取一般都是憑經(jīng)驗的，較新的層次狄利克雷過程（HDP）可以自動選擇主題個數(shù)。對于問題3），牛人們整出了pLSI(也叫pLSA)和隱含狄利克雷分布(LDA)這類基于概率分布的主題模型來替代基于矩陣分解的主題模型。

回到LSI本身，對于一些規(guī)模較小的問題，如果想快速粗粒度的找出一些主題分布的關(guān)系，則LSI是比較好的一個選擇，其他時候，如果你需要使用主題模型，推薦使用LDA和HDP。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學習CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

主題模型 SVD 聚類特征索引概率分布降維非監(jiān)督學習

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇回歸系列（一）| 怎樣正確地理解線性回歸

下一篇2020美國總統(tǒng)競選大戲開鑼，川普當選的奇跡會再發(fā)生嗎？

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

CDA教材
CDA題庫
CDA大綱

客服在線

立即咨詢

客服在線

立即咨詢

免密碼登錄

提交首次登錄驗證后自動注冊

') } function initGt() { var handler = function (captchaObj) { captchaObj.appendTo('#captcha'); captchaObj.onReady(function () { $("#wait").hide(); }).onSuccess(function(){ $('.getcheckcode').removeClass('dis'); $('.getcheckcode').trigger('click'); }); window.captchaObj = captchaObj; }; $('#captcha').show(); $.ajax({ url: "/login/gtstart?t=" + (new Date()).getTime(), // 加隨機數(shù)防止緩存 type: "get", dataType: "json", success: function (data) { $('#text').hide(); $('#wait').show(); // 調(diào)用 initGeetest 進行初始化 // 參數(shù)1：配置參數(shù) // 參數(shù)2：回調(diào)，回調(diào)的第一個參數(shù)驗證碼對象，之后可以使用它調(diào)用相應(yīng)的接口 initGeetest({ // 以下 4 個配置參數(shù)為必須，不能缺少 gt: data.gt, challenge: data.challenge, offline: !data.success, // 表示用戶后臺檢測極驗服務(wù)器是否宕機 new_captcha: data.new_captcha, // 用于宕機時表示是新驗證碼的宕機 product: "float", // 產(chǎn)品形式，包括：float，popup width: "280px", https: true // 更多配置參數(shù)說明請參見：http://docs.geetest.com/install/client/web-front/ }, handler); } }); } function codeCutdown() { if(_wait == 0){ //倒計時完成 $(".getcheckcode").removeClass('dis').html("重新獲取"); }else{ $(".getcheckcode").addClass('dis').html("重新獲取("+_wait+"s)"); _wait--; setTimeout(function () { codeCutdown(); },1000); } } function inputValidate(ele,telInput) { var oInput = ele; var inputVal = oInput.val(); var oType = ele.attr('data-type'); var oEtag = $('#etag').val(); var oErr = oInput.closest('.form_box').next('.err_txt'); var empTxt = '請輸入'+oInput.attr('placeholder')+'！'; var errTxt = '請輸入正確的'+oInput.attr('placeholder')+'！'; var pattern; if(inputVal==""){ if(!telInput){ errFun(oErr,empTxt); } return false; }else { switch (oType){ case 'login_mobile': pattern = /^1[3456789]\d{9}$/; if(inputVal.length==11) { $.ajax({ url: '/login/checkmobile', type: "post", dataType: "json", data: { mobile: inputVal, etag: oEtag, page_ur: window.location.href, page_referer: document.referrer }, success: function (data) { } }); } break; case 'login_yzm': pattern = /^\d{6}$/; break; } if(oType=='login_mobile'){ } if(!!validateFun(pattern,inputVal)){ errFun(oErr,'') if(telInput){ $('.getcheckcode').removeClass('dis'); } }else { if(!telInput) { errFun(oErr, errTxt); }else { $('.getcheckcode').addClass('dis'); } return false; } } return true; } function errFun(obj,msg) { obj.html(msg); if(msg==''){ $('.login_submit').removeClass('dis'); }else { $('.login_submit').addClass('dis'); } } function validateFun(pat,val) { return pat.test(val); }

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

文本主題模型之潛在語義索引(LSI)

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

文本主題模型之潛在語義索引(LSI)

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學習

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...