NLTK/pyNLTK可以「按語言」（即非英語）工作，以及如何操作？

如何告訴NLTK如何處理特定語言的文本？NLTK/pyNLTK可以「按語言」（即非英語）工作，以及如何操作？

偶爾我寫了一個專門的NLP例程來在非英語（但仍然是歐洲）文本域上進行POS標記，標記等操作。

這個問題似乎只涉及不同的語料庫，而不是在代碼/設置的變化： POS tagging in German

或者，有沒有任何專門的希伯來文/西班牙/波蘭NLP爲Python模塊？

2009-11-25 Berry Tsakala

我不確定你指的是代碼/設置的變化。 NLTK主要依賴於機器學習，而「設置」通常是從訓練數據中提取的。

說到POS標記，結果和標記將取決於您使用/訓練的標記器。如果你訓練自己，你當然需要一些西班牙/波蘭的訓練數據。這些可能很難找到的原因是缺乏公開提供的金標準材料。有這樣做的工具可以做到這一點，但這不是蟒蛇（http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/）。

nltk.tokenize.punkt.PunktSentenceTokenizer標記器將根據多語言句子邊界對句子進行標記，詳細信息可在本白皮書中找到（http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485）。

來源

2009-12-14 12:15:51

謝謝。 punkt句子標記器似乎是正確的方向。 – 2009-12-20 00:11:42

你如何得到treetagger工作？ http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas 2013-03-19 15:37:21

NLTK/pyNLTK可以「按語言」（即非英語）工作，以及如何操作？

回答

相關問題