我正在使用Stanford POS Tagger(第一次),雖然它正確標記英文,但即使在更改模型參數時,它也不會識別(簡體)中文。我忽略了什麼?Stanford POS Tagger無法標記中文文本
我已經下載並解壓從這裏最新的完整版: http://nlp.stanford.edu/software/tagger.shtml
然後我inputed樣品文成「樣品input.txt中」。
這是一個測試的句子。這是另一個句子。
然後,我只是跑
./stanford-postagger.sh模型/中國 - distsim.tagger樣本-input.txt
預期的輸出是用詞性標記每個單詞,而是將整個字符串識別爲一個單詞:
從惡搞模型/中國 - distsim.tagger加載默認屬性
讀POS惡搞從模型的模型/中國 - distsim.tagger ...做[3.5秒]。
這是一個測試的句子。這是另一個句子。#NR
標記1個詞語以每秒30.30字。
我很感激任何幫助。
另外,我已經檢查過文件和設置是UTF-8。我也嘗試過不同的示例文本。 – 2013-04-18 04:02:48