2011-05-12 60 views
2

我打算使用Stanford POS tagger來標記句子。我想將文檔拆分爲句子,然後將句子拆分爲令牌。由於我第一次使用java,我只想從命令行運行標記器。斯坦福POS機標記器如何完成標記化?

當我運行標記器時,它給出了輸出,但它給出了「不可確認」的警告。 這個警告是什麼意思?標記不是由標記器隱式地完成的?

我試圖運行命令將文本拆分成您已指定的句子,但它不起作用。標記器給出了無法打開路徑的錯誤。

我也想知道如何輸入文本文件的數量,並在相應的文件中獲得輸出,以便所有輸出不混亂。

+0

也許最好問一下郵件列表:http://nlp.stanford.edu/software/tagger.shtml#Mail – ceving

+0

或者至少添加stanford-nlp標籤:-) –

回答

4

是的,斯坦福POS機標記器包含一個高質量的確定性標記器,除非您說文本已經標記化,否則使用該標記器。對於正式的英文文本,它優於其他大多數表徵符號,儘管它不完全適用於短信,推文等。

無法識別的警告意味着輸入中有字節/字符序列,它可以'過程。

正常情況下,這實際上是這樣的:標記器的默認字符編碼是utf-8(Unicode),但是您的文檔是其他編碼,如8位編碼,如iso-8859-1或Windows cp1252 。您可以轉換文檔或使用-encoding標誌指定輸入文檔編碼。

但它也可能意味着在輸入中有一個不知道的字符。通常在這些情況下,如果它只是一個偶然的角色,您可以忽略這些消息。您可以選擇是刪除角色還是變成1個角色標記。

目前還沒有一種方法可以用一個命令在一堆文件上運行它。你要麼需要在每個文件上分別運行它,要麼編寫自己的代碼。

相關問題