2009-11-25 85 views

回答

8

我不確定你指的是代碼/設置的變化。 NLTK主要依賴於機器學習,而「設置」通常是從訓練數據中提取的。

說到POS標記,結果和標記將取決於您使用/訓練的標記器。如果你訓練自己,你當然需要一些西班牙/波蘭的訓練數據。這些可能很難找到的原因是缺乏公開提供的金標準材料。有這樣做的工具可以做到這一點,但這不是蟒蛇(http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/)。

nltk.tokenize.punkt.PunktSentenceTokenizer標記器將根據多語言句子邊界對句子進行標記,詳細信息可在本白皮書中找到(http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485)。

+0

謝謝。 punkt句子標記器似乎是正確的方向。 – 2009-12-20 00:11:42

+0

你如何得到treetagger工作? http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas 2013-03-19 15:37:21

相關問題