Stanford POS Tagger無法標記中文文本

我正在使用Stanford POS Tagger（第一次），雖然它正確標記英文，但即使在更改模型參數時，它也不會識別（簡體）中文。我忽略了什麼？Stanford POS Tagger無法標記中文文本

我已經下載並解壓從這裏最新的完整版： http://nlp.stanford.edu/software/tagger.shtml

然後我inputed樣品文成「樣品input.txt中」。

這是一個測試的句子。這是另一個句子。

然後，我只是跑

./stanford-postagger.sh模型/中國 - distsim.tagger樣本-input.txt

預期的輸出是用詞性標記每個單詞，而是將整個字符串識別爲一個單詞：

從惡搞模型/中國 - distsim.tagger加載默認屬性

讀POS惡搞從模型的模型/中國 - distsim.tagger ...做[3.5秒]。

這是一個測試的句子。這是另一個句子。＃NR

標記1個詞語以每秒30.30字。

我很感激任何幫助。

2013-04-18 Ryan Rapp

另外，我已經檢查過文件和設置是UTF-8。我也嘗試過不同的示例文本。 – 2013-04-18 04:02:48

我終於認識到，標記/分割不包括在這個pos tagger中。看起來這些詞在將它們送到標記器之前必須由空格分隔。對於那些有興趣在中國的最大熵分詞，有可用的獨立的包在這裏：

謝謝大家。

2013-04-18 21:14:31

是的，您需要在傳遞到POS標記器之前傳入分段器。 – alvas 2013-04-19 01:05:00

回答