2013-04-18 90 views
5

我正在使用Stanford POS Tagger(第一次),雖然它正確標記英文,但即使在更改模型參數時,它也不會識別(簡體)中文。我忽略了什麼?Stanford POS Tagger無法標記中文文本

我已經下載並解壓從這裏最新的完整版: http://nlp.stanford.edu/software/tagger.shtml

然後我inputed樣品文成「樣品input.txt中」。

這是一個測試的句子。這是另一個句子。

然後,我只是跑

./stanford-postagger.sh模型/中國 - distsim.tagger樣本-input.txt

預期的輸出是用詞性標記每個單詞,而是將整個字符串識別爲一個單詞:

從惡搞模型/中國 - distsim.tagger加載默認屬性

讀POS惡搞從模型的模型/中國 - distsim.tagger ...做[3.5秒]。

這是一個測試的句子。這是另一個句子。#NR

標記1個詞語以每秒30.30字。

我很感激任何幫助。

+0

另外,我已經檢查過文件和設置是UTF-8。我也嘗試過不同的示例文本。 – 2013-04-18 04:02:48

回答

6

我終於認識到,標記/分割不包括在這個pos tagger中。看起來這些詞在將它們送到標記器之前必須由空格分隔。對於那些有興趣在中國的最大熵分詞,有可用的獨立的包在這裏:

http://nlp.stanford.edu/software/segmenter.shtml

謝謝大家。

+2

是的,您需要在傳遞到POS標記器之前傳入分段器。 – alvas 2013-04-19 01:05:00

相關問題