斯坦福POS機標記器如何完成標記化？

我打算使用Stanford POS tagger來標記句子。我想將文檔拆分爲句子，然後將句子拆分爲令牌。由於我第一次使用java，我只想從命令行運行標記器。斯坦福POS機標記器如何完成標記化？

當我運行標記器時，它給出了輸出，但它給出了「不可確認」的警告。這個警告是什麼意思？標記不是由標記器隱式地完成的？

我試圖運行命令將文本拆分成您已指定的句子，但它不起作用。標記器給出了無法打開路徑的錯誤。

我也想知道如何輸入文本文件的數量，並在相應的文件中獲得輸出，以便所有輸出不混亂。

2011-05-12 mahi

也許最好問一下郵件列表：http://nlp.stanford.edu/software/tagger.shtml#Mail – ceving

或者至少添加stanford-nlp標籤:-) –

是的，斯坦福POS機標記器包含一個高質量的確定性標記器，除非您說文本已經標記化，否則使用該標記器。對於正式的英文文本，它優於其他大多數表徵符號，儘管它不完全適用於短信，推文等。

無法識別的警告意味着輸入中有字節/字符序列，它可以'過程。

正常情況下，這實際上是這樣的：標記器的默認字符編碼是utf-8（Unicode），但是您的文檔是其他編碼，如8位編碼，如iso-8859-1或Windows cp1252 。您可以轉換文檔或使用-encoding標誌指定輸入文檔編碼。

但它也可能意味着在輸入中有一個不知道的字符。通常在這些情況下，如果它只是一個偶然的角色，您可以忽略這些消息。您可以選擇是刪除角色還是變成1個角色標記。

目前還沒有一種方法可以用一個命令在一堆文件上運行它。你要麼需要在每個文件上分別運行它，要麼編寫自己的代碼。

2011-05-13 05:01:39

回答