我使用Nltk和Scikit Learn來做一些文本處理。但是,在我的文件清單中,我有一些文件不是英文的。例如,下面可能是真的:確定文本是否爲英文?
[ "this is some text written in English",
"this is some more text written in English",
"Ce n'est pas en anglais" ]
對於我分析的目的,我想這不是英文句子都作爲預處理的一部分被移除。但是,有沒有一種好方法可以做到這一點?我一直在谷歌搜索,但無法找到任何具體的東西,可以讓我認識到,如果字符串是英文或不。這是不是作爲Nltk
或Scikit learn
的功能提供? 編輯我見過類似this和this的問題,但都是針對單個單詞...不是「文檔」。我是否需要遍歷句子中的每個單詞來檢查整個句子是否是英文的?
我正在使用Python,所以Python中的庫會更好,但如果需要,我可以切換語言,只是認爲Python會是最好的。
正是我一直在尋找的感謝! :)只是一個問題,你知道這個庫在長文件上的表現嗎? – ocean800
我沒有用過它。在這裏分享你的經驗將會很棒。 – salehinejad
不幸的是,它在很多文檔上都很慢,但是謝謝! – ocean800