我有多種語言的文本文件。如何有選擇地刪除NLTK中的一種語言？

也許這是不可能的，我應該放棄所有的希望。或者，也許有一種非常聰明的方式來做到這一點，我沒有想到。我有多種語言的文本文件。如何有選擇地刪除NLTK中的一種語言？

這裏是我的本錢了兩個例子：

يبس - ييبس（yabisa， yaybasu）YBS] [ي，ب-س（變得乾燥，僵硬，死板）20 ：77 yabasan =幹。 يسر - ييسر（yassara， yuyassiru）[y-s-r] [ي-س-ر]（致方便，容易）92：7 nuyassiruhuu =我們會緩解他。

和

祖Hülfe！ zuHülfe！幫幫我！幫幫我！
Sonst bin ich verloren！否則我失去了！祖胡爾夫！祖胡爾夫！幫幫我！幫助！ Sonlore bin ich verloren！否則我迷路了！ Der listigen Schlange zum Opfer erkoren，被選爲獻給狡猾的蛇，BarmherzigigeGötter！仁慈的神！舍恩nahet SIE SICH，它已經變得接近，舍恩nahet SIE SICH，它已經越來越近，

...這將是非常惱人的經歷，爲了進一步處理這些行刪除一種語言的文字。

我認爲這可以在NLTK中完成的一種方式是將文本拆分爲令牌，根據小語料庫知道每個令牌的出處，然後要求NLTK僅「重構」令牌我選擇的。這只是一個狂野的幻想嗎？

來源

2010-08-25 magnetar

您可以使用nltk.NaiveBayesClassifier完成上述工作。

以下鏈接應該有所幫助： http://nltk.googlecode.com/svn/trunk/doc/book/ch06.html

它使用nltk.NaiveBayesClassifier性別鑑定的例子。你使用相同的語言識別。

您引用的第一個示例將與nltk.NaiveBayesClassifier配合使用，因爲unicode集完全不同。

在第二個例子中，可能會出現像在兩種語言中拼寫相同專有名詞一樣的詞語，這可能會導致語言識別出現一些錯誤。

來源

2010-09-08 16:28:10 Neodawn

我有多種語言的文本文件。如何有選擇地刪除NLTK中的一種語言？

回答

相關問題