也許這是不可能的,我應該放棄所有的希望。或者,也許有一種非常聰明的方式來做到這一點,我沒有想到。我有多種語言的文本文件。如何有選擇地刪除NLTK中的一種語言?
這裏是我的本錢了兩個例子:
يبس - ييبس(yabisa, yaybasu)YBS] [ي,ب-س(變得乾燥, 僵硬,死板)20 :77 yabasan =幹。 يسر - ييسر(yassara, yuyassiru)[y-s-r] [ي-س-ر](致 方便,容易)92:7 nuyassiruhuu =我們會緩解他。
和
祖Hülfe! zuHülfe!幫幫我!幫幫我!
Sonst bin ich verloren!否則我失去了 !祖胡爾夫!祖胡爾夫!幫幫我! 幫助! Sonlore bin ich verloren!否則我迷路了! Der listigen Schlange zum Opfer erkoren, 被選爲獻給狡猾的 蛇,BarmherzigigeGötter!仁慈的 神!舍恩nahet SIE SICH,它已經變得 接近,舍恩nahet SIE SICH,它已經越來越近,
...這將是非常惱人的經歷,爲了進一步處理這些行刪除一種語言的文字。
我認爲這可以在NLTK中完成的一種方式是將文本拆分爲令牌,根據小語料庫知道每個令牌的出處,然後要求NLTK僅「重構」令牌我選擇的。這只是一個狂野的幻想嗎?