2010-08-25 46 views
1

也許這是不可能的,我應該放棄所有的希望。或者,也許有一種非常聰明的方式來做到這一點,我沒有想到。我有多種語言的文本文件。如何有選擇地刪除NLTK中的一種語言?

這裏是我的本錢了兩個例子:

يبس - ييبس(yabisa, yaybasu)YBS] [ي,ب-س(變得乾燥, 僵硬,死板)20 :77 yabasan =幹。 يسر - ييسر(yassara, yuyassiru)[y-s-r] [ي-س-ر](致 方便,容易)92:7 nuyassiruhuu =我們會緩解他。

祖Hülfe! zuHülfe!幫幫我!幫幫我!
Sonst bin ich verloren!否則我失去了 !祖胡爾夫!祖胡爾夫!幫幫我! 幫助! Sonlore bin ich verloren!否則我迷路了! Der listigen Schlange zum Opfer erkoren, 被選爲獻給狡猾的 蛇,BarmherzigigeGötter!仁慈的 神!舍恩nahet SIE SICH,它已經變得 接近,舍恩nahet SIE SICH,它已經越來越近,

...這將是非常惱人的經歷,爲了進一步處理這些行刪除一種語言的文字。

我認爲這可以在NLTK中完成的一種方式是將文本拆分爲令牌,根據小語料庫知道每個令牌的出處,然後要求NLTK僅「重構」令牌我選擇的。這只是一個狂野的幻想嗎?

回答

2

您可以使用nltk.NaiveBayesClassifier完成上述工作。

以下鏈接應該有所幫助: http://nltk.googlecode.com/svn/trunk/doc/book/ch06.html

它使用nltk.NaiveBayesClassifier性別鑑定的例子。你使用相同的語言識別。

您引用的第一個示例將與nltk.NaiveBayesClassifier配合使用,因爲unicode集完全不同。

在第二個例子中,可能會出現像在兩種語言中拼寫相同專有名詞一樣的詞語,這可能會導致語言識別出現一些錯誤。