污18禁污色黄网站免费观看,国产奶头好大揉着好爽视频,在线视频网站www色

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

詳解自然語言處理(NLP)5大語義分析技術(shù)及14類應(yīng)用（建議收藏）

2020-08-07

語言是人類區(qū)別其他動物的本質(zhì)特性，也是人工智能的一個重要，甚至核心部分。用自然語言與計算機進行通信，這是人們長期以來所追求的。這就是涉及到了小編今天給大家推薦的這篇文章：詳解自然語言處理(NLP)5大語義分析技術(shù)及14類應(yīng)用（建議收藏），希望這篇文章對于大家NLP的理解和應(yīng)用有所幫助。

作者：達觀數(shù)據(jù)

來源：大數(shù)據(jù)DT（ID：hzdashuju）

內(nèi)容摘編自《智能RPA實戰(zhàn)》

導(dǎo)讀：自然語言處理（Natural Language Processing，NLP）技術(shù)是與自然語言的計算機處理有關(guān)的所有技術(shù)的統(tǒng)稱，其目的是使計算機能夠理解和接受人類用自然語言輸入的指令，完成從一種語言到另一種語言的翻譯功能。

自然語言處理技術(shù)的研究，可以豐富計算機知識處理的研究內(nèi)容，推動人工智能技術(shù)的發(fā)展。

01 語義分析技術(shù)

自然語言處理技術(shù)的核心為語義分析。語義分析是一種基于自然語言進行語義信息分析的方法，不僅進行詞法分析和句法分析這類語法水平上的分析，而且還涉及單詞、詞組、句子、段落所包含的意義，目的是用句子的語義結(jié)構(gòu)來表示語言的結(jié)構(gòu)。語義分析技術(shù)具體包括如下幾點。

1. 詞法分析

詞法分析包括詞形分析和詞匯分析兩個方面。一般來講，詞形分析主要表現(xiàn)在對單詞的前綴、后綴等進行分析，而詞匯分析則表現(xiàn)在對整個詞匯系統(tǒng)的控制，從而能夠較準確地分析用戶輸入信息的特征，最終準確地完成搜索過程。

2. 句法分析

句法分析是對用戶輸入的自然語言進行詞匯短語的分析，目的是識別句子的句法結(jié)構(gòu)，以實現(xiàn)自動句法分析的過程。

3. 語用分析

語用分析相對于語義分析又增加了對上下文、語言背景、語境等的分析，即從文章的結(jié)構(gòu)中提取出意象、人際關(guān)系等附加信息，是一種更高級的語言學(xué)分析。它將語句中的內(nèi)容與現(xiàn)實生活中的細節(jié)關(guān)聯(lián)在一起，從而形成動態(tài)的表意結(jié)構(gòu)。

4. 語境分析

語境分析主要是指對原查詢語篇之外的大量“空隙”進行分析，以便更準確地解釋所要查詢語言的技術(shù)。這些“空隙”包括一般的知識、特定領(lǐng)域的知識以及查詢用戶的需求等。

5. 自然語言生成

AI驅(qū)動的引擎能夠根據(jù)收集的數(shù)據(jù)生成描述，通過遵循將數(shù)據(jù)中的結(jié)果轉(zhuǎn)換為散文的規(guī)則，在人與技術(shù)之間創(chuàng)建無縫交互的軟件引擎。結(jié)構(gòu)化性能數(shù)據(jù)可以通過管道傳輸?shù)阶匀徽Z言引擎中，以自動編寫內(nèi)部和外部的管理報告。

自然語言生成接收結(jié)構(gòu)化表示的語義，以輸出符合語法的、流暢的、與輸入語義一致的自然語言文本。早期大多采用管道模型研究自然語言生成，管道模型根據(jù)不同的階段將研究過程分解為如下三個子任務(wù)。

內(nèi)容選擇：決定要表達哪些內(nèi)容。
句子規(guī)劃：決定篇章及句子的結(jié)構(gòu)，進行句子的融合、指代表述等。
表層實現(xiàn)：決定選擇什么樣的詞匯來實現(xiàn)一個句子的表達。

早期基于規(guī)則的自然語言生成技術(shù)，在每個子任務(wù)上均采用了不同的語言學(xué)規(guī)則或領(lǐng)域知識，實現(xiàn)了從輸入語義到輸出文本的轉(zhuǎn)換。

鑒于基于規(guī)則的自然語言生成系統(tǒng)存在的不足之處，近幾年來，學(xué)者們開始了基于數(shù)據(jù)驅(qū)動的自然語言生成技術(shù)的研究，從淺層的統(tǒng)計機器學(xué)習(xí)模型，到深層的神經(jīng)網(wǎng)絡(luò)模型，對語言生成過程中每個子任務(wù)的建模，以及多個子任務(wù)的聯(lián)合建模，開展了相關(guān)的研究，目前主流的自然語言生成技術(shù)主要有基于數(shù)據(jù)驅(qū)動的自然語言生成技術(shù)和基于深度神經(jīng)網(wǎng)絡(luò)的自然語言生成技術(shù)。

02 自然語言處理應(yīng)用

自然語言處理應(yīng)用的技術(shù)體系主要包括字詞級別的自然語言處理，句法級別的自然語言處理和篇章級別的自然語言處理。

字詞級別的分析主要包括中文分詞、命名實體識別、詞性標注、同義詞分詞、字詞向量等；
句法級別的分析主要包括依存文法分析、詞位置分析、語義歸一化、文本糾錯等；
篇章級別的分析主要包括標簽提取、文檔相似度分析、主題模型分析、文檔分類和聚類等。

1. 中文分詞

中文分詞是計算機根據(jù)語義模型，自動將漢字序列切分為符合人類語義理解的詞匯。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。

在英文的行文中，單詞之間是以空格作為自然分界符的，而中文只是字、句和段能夠通過明顯的分界符來進行簡單的劃界，唯獨詞沒有一個形式上的分界符，雖然英文也同樣存在短語的劃分問題，不過在詞這一層面上，中文比英文要復(fù)雜得多、困難得多。

2. 命名實體識別

命名實體識別又稱作“專名識別”（NER），是指對具有特定意義的實體進行自動識別的技術(shù)，是信息提取、知識圖譜、問答系統(tǒng)、句法分析、搜索引擎、機器翻譯等應(yīng)用的重要基礎(chǔ)。

3. 詞性標注

詞性標注（Part-of-Speech tagging或POS tagging）又稱詞類標注，是指為分詞結(jié)果中的每個單詞標注一個正確的詞性的程序。具體來說就是，確定每個詞是名詞、動詞、形容詞或者是其他詞性的過程（如圖3-2所示）。

▲圖3-2 詞性標注

在漢語中，詞性標注比較簡單，因為漢語詞匯詞性多變的情況比較少見，大多數(shù)詞語只有一個詞性，或者出現(xiàn)頻次最高的詞性遠遠高于第二位的詞性。常用的方法有：基于最大熵的詞性標注、基于統(tǒng)計的最大概率輸出詞性、基于隱馬爾可夫模型（HMM）的詞性標注。

4. 同義詞分析

由于不同地區(qū)的文化差異，輸入的查詢文字很可能會出現(xiàn)描述不一致的問題。此時，業(yè)務(wù)系統(tǒng)需要對用戶的輸入做同義詞、糾錯、歸一化處理。同義詞挖掘是一項基礎(chǔ)工作，同義詞算法包括詞典、百科詞條、元搜索數(shù)據(jù)、上下文相關(guān)性挖掘，等等。

5. 詞向量分析

詞向量技術(shù)是指將詞轉(zhuǎn)化為稠密向量，相似的詞對應(yīng)的詞向量也相近。在自然語言處理應(yīng)用中，詞向量作為深度學(xué)習(xí)模型的特征進行輸入。因此，最終模型的效果在很大程度上取決于詞向量的效果。一般來說，字詞表示有兩種方式：one-hot及分布式表示。

one-hot是指向量中只有一個維度的值為1，其余維度為0，這個維度代表了當前詞。
分布式表示（word embedding）指的是將詞轉(zhuǎn)化為一種分布式表示，又稱詞向量，分布式表示將詞表示成一個定長的稠密向量。

詞向量的生成可分為兩種方法：基于統(tǒng)計方法（例如，共現(xiàn)矩陣、奇異值分解（SVD）和基于語言模型（例如，word2vec中使用的CBOW、Skip-gram等）。

6. 依存文法分析

依存文法通過分析語言單位內(nèi)成分之前的依存關(guān)系解釋其句法結(jié)構(gòu)，主張句子中的核心謂語動詞是支配其他成分的中心成分。而它本身卻不會受到其他任何成分的支配，所有受支配的成分都以某種關(guān)系從屬于支配者，如圖3-3所示。

▲圖3-3 依存文法分析距離

從分析結(jié)果中我們可以看到，句子的核心謂語動詞為“召開”，主語是“民航局”，“召開”的賓語是“會”，“會”的修飾語是“通用航空發(fā)展工作專題”。有了上面的句法分析結(jié)果，我們就可以比較容易地看到，是“民航局”“召開”了會議，而不是“促進”了會議，即使“促進”距離“會”更近。

7. 詞位置分析

文章中不同位置的詞對文章語義的貢獻度也不同。文章首尾出現(xiàn)的詞成為主題詞、關(guān)鍵詞的概率要大于出現(xiàn)在正文中的詞。對文章中的詞的位置進行建模，賦予不同位置不同的權(quán)重，從而能夠更好地對文章進行向量化表示。

8. 語義歸一化

語義歸一化通常是指從文章中識別出具有相同意思的詞或短語，其主要的任務(wù)是共指消解。共指消解是自然語言處理中的核心問題，在機器翻譯、信息抽取以及問答等領(lǐng)域都有著非常重要的作用。

就拿常見的信息抽取的一個成型系統(tǒng)來講，微軟的學(xué)術(shù)搜索引擎會存有一些作者的檔案資料，這些信息可能有一部分就是根據(jù)共指對象抽取出來的。比如，在一個教授的訪談錄中，教授的名字可能只會出現(xiàn)一兩次，更多的可能是“我”“某某博士”“某某教授”或“他”之類的代稱，不出意外的話，這其中也會有一些同樣的詞代表記者，如何將這些詞對應(yīng)到正確的人，將會成為信息抽取的關(guān)鍵所在。

9. 文本糾錯

文本糾錯任務(wù)指的是，對于自然語言在使用過程中出現(xiàn)的錯誤進行自動地識別和糾正。文本糾錯任務(wù)主要包含兩個子任務(wù)，分別為錯誤識別和錯誤修正。錯誤識別的任務(wù)是指出錯誤出現(xiàn)的句子的位置，錯誤修正是指在識別的基礎(chǔ)上自動進行更正。

相比于英文糾錯來說，中文糾錯的主要困難在于中文的語言特性：中文的詞邊界以及中文龐大的字符集。由于中文的語言特性，兩種語言的錯誤類型也是不同的。

英文的修改操作包括插入、刪除、替換和移動（移動是指兩個字母交換順序等），而對于中文來說，因為每一個中文漢字都可獨立成詞，因此插入、刪除和移動的錯誤都只是作為語法錯誤。由于大部分的用戶均為母語用戶，且輸入法一般會給出正確提示，語法錯誤的情況一般比較少，因此，中文輸入糾錯主要集中在替換錯誤上。

10. 標簽提取

文檔的標簽通常是幾個詞語或者短語，并以此作為對該文檔主要內(nèi)容的提要。標簽是人們快速了解文檔內(nèi)容、把握主題的重要方式，在科技論文、信息存儲、新聞報道中具有極其廣泛的應(yīng)用。文檔的標簽通常具有可讀性、相關(guān)性、覆蓋度等特點。

可讀性指的是其本身作為一個詞語或者短語就應(yīng)該是有意義的；
相關(guān)性指的是標簽必須與文檔的主題、內(nèi)容緊密相關(guān)；
覆蓋度指的是文檔的標簽?zāi)茌^好地覆蓋文檔的內(nèi)容，而不能只集中在某一句話中。

11. 文本相似度

文本相似度在不同領(lǐng)域受到了廣泛的討論，然而由于應(yīng)用場景的不同，其內(nèi)涵也會有差異，因此沒有統(tǒng)一的定義。

從信息論的角度來看，相似度與文本之間的共性和差異度有關(guān)，共性越大、差異度越小，則相似度越高；共性越小、差異度越大，則相似度越低；相似度最大的情況是文本完全相同。

相似度計算一般是指計算事物的特征之間的距離，如果距離小，那么相似度就大；如果距離大，那么相似度就小。

相似度計算的方法可以分為四大類：基于字符串的方法、基于語料庫的方法、基于知識的方法和其他方法。

基于字符串的方法是指從字符串的匹配度出發(fā)，以字符串共現(xiàn)和重復(fù)程度為相似度的衡量標準；
基于語料庫的方法是指利用從語料庫中獲取的信息計算文本的相似度；
基于知識的方法是指利用具有規(guī)范組織體系的知識庫計算文本的相似度。

12. 主題模型

主題分析模型（Topic Model）是以非監(jiān)督學(xué)習(xí)的方式對文檔的隱含語義結(jié)構(gòu)進行統(tǒng)計和聚類，以用于挖掘文本中所蘊含的語義結(jié)構(gòu)的技術(shù)。隱含狄利克雷分布（Latent Dirichlet Allocation，LDA）是常用的主題模型計算方法。

13. 文本分類

按照特定行業(yè)的文檔分類體系，計算機自動閱讀文檔的內(nèi)容并將其歸屬到相應(yīng)類目的技術(shù)體系下。其典型的處理過程可分為訓(xùn)練和運轉(zhuǎn)兩種。即計算機預(yù)先閱讀各個類目的文檔并提取特征，完成有監(jiān)督的學(xué)習(xí)訓(xùn)練，在運轉(zhuǎn)階段識別新文檔的內(nèi)容并完成歸類。

14. 文本聚類

文本聚類主要是依據(jù)著名的聚類假設(shè)：同類的文檔相似度較大，而不同類的文檔相似度較小。作為一種無監(jiān)督的機器學(xué)習(xí)方法，聚類由于不需要訓(xùn)練過程，以及不需要預(yù)先對文檔的類別進行手工標注，因此具有一定的靈活性和較高的自動化處理能力。

文本聚類已經(jīng)成為對文本信息進行有效地組織、摘要和導(dǎo)航的重要手段。文本聚類的方法主要有基于劃分的聚類算法、基于層次的聚類算法和基于密度的聚類算法。

關(guān)于作者：達觀數(shù)據(jù)，中國智能RPA領(lǐng)域的龍頭企業(yè)，獨立開發(fā)了全套“RPA+AI”系統(tǒng)，擁有核心知識產(chǎn)權(quán)。達觀智能RPA產(chǎn)品是業(yè)界不依賴微軟底層開發(fā)框架、未使用第三方開源框架的RPA產(chǎn)品。

本文摘編自《智能RPA實戰(zhàn)》，經(jīng)出版方授權(quán)發(fā)布。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；

? 想學(xué)習(xí)CDA考試教材，點擊>>> “CDA教材” 了解CDA考試詳情；

? 想加入CDA考試題庫，點擊>>> “CDA題庫” 了解CDA考試詳情；

? 想了解CDA考試含金量，點擊>>> “CDA含金量” 了解CDA考試詳情；

特征 NLP 神經(jīng)網(wǎng)絡(luò) 機器學(xué)習(xí) 人工智能無監(jiān)督文本分類有監(jiān)督

數(shù)據(jù)分析咨詢請掃描二維碼

若不方便掃碼，搜微信號：CDAshujufenxi

上一篇基于OpenCV實現(xiàn)海岸線變化檢測

下一篇python：就喜歡看你看不慣我又干不掉我的樣子

CDA報考指南

報考流程
考試時間
報名費用
聯(lián)系我們

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

京公網(wǎng)安備 11010802034615號經(jīng)營許可證編號：京B2-20210330

聯(lián)系電話：13321103290 (微信同號)

免密碼登錄

提交首次登錄驗證后自動注冊

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

詳解自然語言處理(NLP)5大語義分析技術(shù)及14類應(yīng)用（建議收藏）

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

詳解自然語言處理(NLP)5大語義分析技術(shù)及14類應(yīng)用（建議收藏）

數(shù)據(jù)分析師考試動態(tài)

CDA報考指南

數(shù)據(jù)分析學(xué)習(xí)

數(shù)據(jù)分析師資訊

【CDA干貨】LSTM 模型輸入長度選擇技巧：提升序列建 ...

CDA 數(shù)據(jù)分析師報考條件詳解與準備指南 ...

【CDA干貨】數(shù)據(jù)透視表中兩列相乘合計的實用指南 ...

CDA 認證考試大綱 2025 重磅更新：一二級考綱變化匯 ...

BI 大數(shù)據(jù)分析師：連接數(shù)據(jù)與業(yè)務(wù)的價值轉(zhuǎn)化者 ...

SQL 在預(yù)測分析中的應(yīng)用：從數(shù)據(jù)查詢到趨勢預(yù)判 ...

數(shù)據(jù)查詢結(jié)束后：分析師的收尾工作與價值深化 ...

CDA 數(shù)據(jù)分析師考試：從報考到取證的全攻略 ...

【CDA干貨】單樣本趨勢性檢驗：捕捉數(shù)據(jù)背后的時間 ...

year_month數(shù)據(jù)類型：時間維度的精準切片 ...

CDA 備考干貨：Python 在數(shù)據(jù)分析中的核心應(yīng)用與實 ...

【CDA干貨】SPSS 中的 Mann-Kendall 檢驗：數(shù)據(jù)趨勢 ...

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...

統(tǒng)計學(xué)方法在市場調(diào)研數(shù)據(jù)中的深度應(yīng)用 ...

CDA數(shù)據(jù)分析師證書考試全攻略

剖析 CDA 數(shù)據(jù)分析師考試題型：解鎖高效備考與答題 ...

【CDA干貨】SQL Server 字符串截取轉(zhuǎn)日期：解鎖數(shù)據(jù) ...

CDA 數(shù)據(jù)分析師視角：從數(shù)據(jù)迷霧中探尋商業(yè)真相 ...

CDA 數(shù)據(jù)分析師：開啟數(shù)據(jù)職業(yè)發(fā)展新征程 ...

CDA教育閉環(huán)

常見問題

關(guān)于我們

CDA數(shù)據(jù)分析師公眾號

CDA考試中心小程序

CDA數(shù)據(jù)分析師App下載

備戰(zhàn) CDA 數(shù)據(jù)分析師考試：需要多久？如何規(guī)劃？ ...

【CDA干貨】LSTM 輸出不確定的成因、影響與應(yīng)對策略 ...