精品无人乱码一区二区三区的特点 ,蜜臀亚洲精品国产aⅴ综合第一

99999久久久久久亚洲,欧美人与禽猛交狂配,高清日韩av在线影院,一个人在线高清免费观看,啦啦啦在线视频免费观看www

數(shù)據(jù)處理-分詞技術(shù)_數(shù)據(jù)處理技術(shù)_中文分詞技術(shù)

2017-01-03

數(shù)據(jù)處理-分詞技術(shù)_數(shù)據(jù)處理技術(shù)_中文分詞技術(shù)

第一章：基礎(chǔ)介紹

定義：分詞技術(shù)就是搜索引擎針對用戶提交查詢的關(guān)鍵詞串進行的查詢處理后根據(jù)用戶的關(guān)鍵詞串用各種匹配方法進行的一種技術(shù)。

概述

我們要理解分詞技術(shù)先要理解一個概念。那就是查詢處理，當用戶向搜索引擎提交查詢后，搜索引擎接收到用戶的信息要做一系列的處理。步驟如下所示：

1.首先是到數(shù)據(jù)庫里面索引相關(guān)的信息，這就是查詢處理。

那么查詢處理又是如何工作的呢？很簡單，把用戶提交的字符串沒有超過3個的中文字，就會直接到數(shù)據(jù)庫索引詞匯。超過4個中文字的，首先用分隔符比如空格，標點符號，將查詢串分割成若干子查詢串。

舉個例子?！笆裁词前俣确衷~技術(shù)” 我們就會把這個詞分割成“ 什么是，百度，分詞技術(shù)。”這種分詞方法叫做反向匹配法。

2.然后再看用戶提供的這個詞有沒有重復詞匯

如果有的話，會丟棄掉，默認為一個詞匯。接下來檢查用戶提交的字符串，有沒有字母和數(shù)字。如果有的話，就把字母和數(shù)字認為一個詞。

這就是搜索引擎的查詢處理。

分詞的原理

百度是如何來分詞的呢？分詞技術(shù)現(xiàn)今非常成熟了。分為3種技術(shù)。

字符串匹配的分詞方法

這是種常用的分詞法，百度就是用此類分詞。字符串匹配的分詞方法，又分為3種分詞方法。

（1）.正向最大匹配法
就是把一個詞從左至右來分詞。
舉個例子：”不知道你在說什么”
這句話采用正向最大匹配法是如何分的呢？“不知道，你，在，說什么”。

（2）.反向最大匹配法
“不知道你在說什么”反向最大匹配法來分上面這段是如何分的。“不，知道，你在，說，什么”，這個就分的比較多了，反向最大匹配法就是從右至左。

（3）.就是最短路徑分詞法。
就是說一段話里面要求切出的詞數(shù)是最少的。
“不知道你在說什么”最短路徑分詞法就是指，把上面那句話分成的詞要是最少的?！安恢?，你在，說什么”，這就是最短路徑分詞法，分出來就只有3個詞了。

（4）.雙向最大匹配法。
而有一種特殊的情況，就是關(guān)鍵詞前后組合內(nèi)容被認為粘性相差不大，而搜索結(jié)果中也同時包含這兩組詞的話，百度會進行正反向同時進行分詞匹配。

詞義分詞法

就是一種機器語音判斷的分詞方法。很簡單，進行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象來分詞，這種分詞方法，現(xiàn)在還不成熟，處在測試階段。
統(tǒng)計分詞法

根據(jù)詞組的統(tǒng)計，就會發(fā)現(xiàn)兩個相鄰的字出現(xiàn)的頻率最多，那么這個詞就很重要。就可以作為用戶提供字符串中的分隔符，這樣來分詞。

比如，“我的，你的，許多的，這里，這一，那里”等等，這些詞出現(xiàn)的比較多，就從這些詞里面分開來。

第二章：中文分詞技術(shù)

一、為什么要進行中文分詞？

詞是最小的能夠獨立活動的有意義的語言成分，英文單詞之間是以空格作為自然分界符的，而漢語是以字為基本的書寫單位，詞語之間沒有明顯的區(qū)分標記，因此，中文詞語分析是中文信息處理的基礎(chǔ)與關(guān)鍵。

Lucene中對中文的處理是基于自動切分的單字切分，或者二元切分。除此之外，還有最大切分（包括向前、向后、以及前后相結(jié)合）、最少切分、全切分等等。

二、中文分詞技術(shù)的分類

我們討論的分詞算法可分為三大類：基于字典、詞庫匹配的分詞方法；基于詞頻度統(tǒng)計的分詞方法和基于知識理解的分詞方法。

第一類方法應用詞典匹配、漢語詞法或其它漢語語言知識進行分詞，如：最大匹配法、最小分詞方法等。這類方法簡單、分詞效率較高,但漢語語言現(xiàn)象復雜豐富，詞典的完備性、規(guī)則的一致性等問題使其難以適應開放的大規(guī)模文本的分詞處理。第二類基于統(tǒng)計的分詞方法則基于字和詞的統(tǒng)計信息，如把相鄰字間的信息、詞頻及相應的共現(xiàn)信息等應用于分詞，由于這些信息是通過調(diào)查真實語料而取得的，因而基于統(tǒng)計的分詞方法具有較好的實用性。

下面簡要介紹幾種常用方法:

1）逐詞遍歷法。

逐詞遍歷法將詞典中的所有詞按由長到短的順序在文章中逐字搜索,直至文章結(jié)束。也就是說,不管文章有多短,詞典有多大,都要將詞典遍歷一遍。這種方法效率比較低，大一點的系統(tǒng)一般都不使用。

2）基于字典、詞庫匹配的分詞方法（機械分詞法）

這種方法按照一定策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配，若在詞典中找到某個字符串，則匹配成功。識別出一個詞，根據(jù)掃描方向的不同分為正向匹配和逆向匹配。根據(jù)不同長度優(yōu)先匹配的情況，分為最大（最長）匹配和最小（最短）匹配。根據(jù)與詞性標注過程是否相結(jié)合，又可以分為單純分詞方法和分詞與標注相結(jié)合的一體化方法。常用的方法如下：

a、最大正向匹配法 (ＭａｘｉｍｕｍＭａｔｃｈｉｎｇＭｅｔｈｏｄ)通常簡稱為ＭＭ法。其基本思想為：假定分詞詞典中的最長詞有i個漢字字符，則用被處理文檔的當前字串中的前i個字作為匹配字段，查找字典。若字典中存在這樣的一個i字詞，則匹配成功，匹配字段被作為一個詞切分出來。如果詞典中找不到這樣的一個i字詞，則匹配失敗，將匹配字段中的最后一個字去掉，對剩下的字串重新進行匹配處理…… 如此進行下去，直到匹配成功，即切分出一個詞或剩余字串的長度為零為止。這樣就完成了一輪匹配，然后取下一個i字字串進行匹配處理，直到文檔被掃描完為止。

其算法描述如下：
(1)初始化當前位置計數(shù)器，置為0；
(2)從當前計數(shù)器開始，取前2i個字符作為匹配字段，直到文檔結(jié)束；
(3)如果匹配字段長度不為0，則查找詞典中與之等長的作匹配處理。
如果匹配成功，
則，
a)把這個匹配字段作為一個詞切分出來，放入分詞統(tǒng)計表中；
b)把當前位置計數(shù)器的值加上匹配字段的長度；
c)跳轉(zhuǎn)到步驟2);
否則
a) 如果匹配字段的最后一個字符為漢字字符，
則
①把匹配字段的最后一個字去掉；
②匹配字段長度減2；
否則
①把匹配字段的最后一個字節(jié)去掉；
②匹配字段長度減1；
b)跳轉(zhuǎn)至步驟3）；
否則
a)如果匹配字段的最后一個字符為漢字字符，
則當前位置計數(shù)器的值加2；
否則當前位置計數(shù)器的值加1；
b)跳轉(zhuǎn)到步驟2)。

b、逆向最大匹配法 (ＲｅｖｅｒｓｅＭａｘｉｍｕｍＭａｔｃｉｎｇＭｅｔｈｏｄ)通常簡稱為ＲＭＭ法。ＲＭＭ法的基本原理與ＭＭ法相同 ,不同的是分詞切分的方向與MM法相反，而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開始匹配掃描，每次取最末端的2i個字符（i字字串）作為匹配字段，若匹配失敗，則去掉匹配字段最前面的一個字，繼續(xù)匹配。相應地，它使用的分詞詞典是逆序詞典，其中的每個詞條都將按逆序方式存放。在實際處理時，先將文檔進行倒排處理，生成逆序文檔。然后，根據(jù)逆序詞典，對逆序文檔用正向最大匹配法處理即可。

由于漢語中偏正結(jié)構(gòu)較多，若從后向前匹配，可以適當提高精確度。所以，逆向最大匹配法比正向最大匹配法的誤差要小。統(tǒng)計結(jié)果表明 ,單純使用正向最大匹配的錯誤率為 1/16 9,單純使用逆向最大匹配的錯誤率為 1/245。例如切分字段“碩士研究生產(chǎn)”，正向最大匹配法的結(jié)果會是“碩士研究生 / 產(chǎn)”，而逆向最大匹配法利用逆向掃描，可得到正確的分詞結(jié)果“碩士 / 研究 / 生產(chǎn)”。

當然，最大匹配算法是一種基于分詞詞典的機械分詞法，不能根據(jù)文檔上下文的語義特征來切分詞語，對詞典的依賴性較大，所以在實際使用時，難免會造成一些分詞錯誤，為了提高系統(tǒng)分詞的準確度，可以采用正向最大匹配法和逆向最大匹配法相結(jié)合的分詞方案（即雙向匹配法，見（四）。）

C、最少切分法：使每一句中切出的詞數(shù)最小。

D、雙向匹配法：將正向最大匹配法與逆向最大匹配法組合。先根據(jù)標點對文檔進行粗切分，把文檔分解成若干個句子，然后再對這些句子用正向最大匹配法和逆向最大匹配法進行掃描切分。如果兩種分詞方法得到的匹配結(jié)果相同，則認為分詞正確，否則，按最小集處理。

3). 全切分和基于詞的頻度統(tǒng)計的分詞方法

基于詞的頻度統(tǒng)計的分詞方法是一種全切分方法。在討論這個方法之前我們先要明白有關(guān)全切分的相關(guān)內(nèi)容。

全切分

全切分要求獲得輸入序列的所有可接受的切分形式，而部分切分只取得一種或幾種可接受的切分形式，由于部分切分忽略了可能的其他切分形式，所以建立在部分切分基礎(chǔ)上的分詞方法不管采取何種歧義糾正策略，都可能會遺漏正確的切分，造成分詞錯誤或失敗。而建立在全切分基礎(chǔ)上的分詞方法，由于全切分取得了所有可能的切分形式，因而從根本上避免了可能切分形式的遺漏，克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式，它的句子覆蓋率和分詞覆蓋率均為100%，但全切分分詞并沒有在文本處理中廣泛地采用，原因有以下幾點：

1)全切分算法只是能獲得正確分詞的前提，因為全切分不具有歧義檢測功能，最終分詞結(jié)果的正確性和完全性依賴于獨立的歧義處理方法，如果評測有誤，也會造成錯誤的結(jié)果。

2)全切分的切分結(jié)果個數(shù)隨句子長度的增長呈指數(shù)增長，一方面將導致龐大的無用數(shù)據(jù)充斥于存儲數(shù)據(jù)庫；另一方面當句長達到一定長度后，由于切分形式過多,造成分詞效率嚴重下降。

基于詞的頻度統(tǒng)計的分詞方法：

這是一種全切分方法。它不依靠詞典,而是將文章中任意兩個字同時出現(xiàn)的頻率進行統(tǒng)計,次數(shù)越高的就可能是一個詞。它首先切分出與詞表匹配的所有可能的詞,運用統(tǒng)計語言模型和決策算法決定最優(yōu)的切分結(jié)果。它的優(yōu)點在于可以發(fā)現(xiàn)所有的切分歧義并且容易將新詞提取出來。

4)．基于知識理解的分詞方法。

該方法主要基于句法、語法分析，并結(jié)合語義分析，通過對上下文內(nèi)容所提供信息的分析對詞進行定界，它通常包括三個部分：分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下，分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進行判斷。這類方法試圖讓機器具有人類的理解能力，需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性，難以將各種語言信息組織成機器可直接讀取的形式。因此目前基于知識的分詞系統(tǒng)還處在試驗階段。

5)．一種新的分詞方法

并行分詞方法：這種分詞方法借助于一個含有分詞詞庫的管道進行 ,比較匹配過程是分步進行的 ,每一步可以對進入管道中的詞同時與詞庫中相應的詞進行比較 ,由于同時有多個詞進行比較匹配 ,因而分詞速度可以大幅度提高。這種方法涉及到多級內(nèi)碼理論和管道的詞典數(shù)據(jù)結(jié)構(gòu)。

CDA數(shù)據(jù)分析師考試相關(guān)入口一覽（建議收藏）：

? 想報名CDA認證考試，點擊>>> “CDA報名” 了解CDA考試詳情；