如何告訴NLTK如何處理特定語言的文本?NLTK/pyNLTK可以「按語言」(即非英語)工作,以及如何操作?
偶爾我寫了一個專門的NLP例程來在非英語(但仍然是歐洲)文本域上進行POS標記,標記等操作。
這個問題似乎只涉及不同的語料庫,而不是在代碼/設置的變化: POS tagging in German
或者,有沒有任何專門的希伯來文/西班牙/波蘭NLP爲Python模塊?
如何告訴NLTK如何處理特定語言的文本?NLTK/pyNLTK可以「按語言」(即非英語)工作,以及如何操作?
偶爾我寫了一個專門的NLP例程來在非英語(但仍然是歐洲)文本域上進行POS標記,標記等操作。
這個問題似乎只涉及不同的語料庫,而不是在代碼/設置的變化: POS tagging in German
或者,有沒有任何專門的希伯來文/西班牙/波蘭NLP爲Python模塊?
我不確定你指的是代碼/設置的變化。 NLTK主要依賴於機器學習,而「設置」通常是從訓練數據中提取的。
說到POS標記,結果和標記將取決於您使用/訓練的標記器。如果你訓練自己,你當然需要一些西班牙/波蘭的訓練數據。這些可能很難找到的原因是缺乏公開提供的金標準材料。有這樣做的工具可以做到這一點,但這不是蟒蛇(http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/)。
nltk.tokenize.punkt.PunktSentenceTokenizer標記器將根據多語言句子邊界對句子進行標記,詳細信息可在本白皮書中找到(http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485)。
謝謝。 punkt句子標記器似乎是正確的方向。 – 2009-12-20 00:11:42
你如何得到treetagger工作? http://stackoverflow.com/questions/15503388/treetagger-installation-successful-but-cannot-open-par-file – alvas 2013-03-19 15:37:21