給定一個(gè)字符序列和一個(gè)定義的文檔單元,標(biāo)記化是將其切成碎片的任務(wù),稱為 令牌,也許同時(shí)丟掉某些字符,如標(biāo)點(diǎn)符號(hào)。以下是標(biāo)記化的示例:
這些令牌通常被寬泛地稱為術(shù)語(yǔ)或單詞,但有時(shí)制作類型/令牌很重要區(qū)別。一個(gè)代幣是一些特定文檔中的字符序列的實(shí)例,它們被組合在一起作為用于處理的有用語(yǔ)義單元。一個(gè)type是包含相同字符序列的所有標(biāo)記的類。一個(gè)term是包含在IR系統(tǒng)字典中的(可能是規(guī)范化的)類型。索引術(shù)語(yǔ)集可以完全不同于令牌,例如,它們可以是分類法中的語(yǔ)義標(biāo)識(shí)符,但在現(xiàn)代IR系統(tǒng)中,它們與文檔中的令牌密切相關(guān)。但是,它們通常是通過(guò)討論的各種規(guī)范化過(guò)程從它們中獲得的,而不是完全出現(xiàn)在文檔中的標(biāo)記。
例如,如果要編入索引的文檔是睡眠夢(mèng)想,則有5個(gè)令牌,但只有4種類型(因?yàn)橛?個(gè)實(shí)例)。但是,如果要從索引中省略,那么只有3個(gè)術(shù)語(yǔ):睡眠,偶然和夢(mèng)想。
標(biāo)記化階段的主要問(wèn)題是使用正確的標(biāo)記是什么?它看起來(lái)相當(dāng)簡(jiǎn)單:你切換空白并扔掉標(biāo)點(diǎn)字符。這是一個(gè)起點(diǎn),但即使是英語(yǔ)也有一些棘手的案例。例如,你如何處理撇號(hào)對(duì)于占有和收縮的各種用途?








暫無(wú)數(shù)據(jù)