2008-11-02 81 views
4

是否有一種方式(程序,庫)來大致知道文件被寫入哪種語言?(人類)文件的語言

我在混合語言一堆文本文檔(500K〜)在國際化導入啓用CMS(Drupal的)..

我不需要完美的匹配,只有一些猜測。

回答

6

鑑於您擁有需要識別的所有不同語言的語料庫數據,有一種非常簡單的方法可以做到這一點。它被稱爲n-gram建模。我認爲Lingua::Identify已經這樣做了,所以這是你最好的選擇,而不是實現你自己的。

0

我會說你最好的選擇是尋找關鍵詞 - 文章,那種東西 - 這對你正在尋找的語言來說是獨一無二的。例如,「Un」將以西班牙語和法語顯示,但「une」可識別爲法語,而「unos」則可識別爲西班牙語。變音符號也很有用 - 你會看到西班牙語和可能葡萄牙語中的「ñ」,法語中的「ç」和其他一些......這種事情。

編輯 - 保羅的解決方案可能是最好的;看起來像它使用我所概述的方法,再加上一些額外的東西。

0

通過運行谷歌搜索「determine language of document」,我發現許多不同的網站,將幫助你。第一頁上的第三個鏈接最終導致我在Google Code API中使用了function,這正是您所需要的。

0

谷歌翻譯API很酷,並有一個REST接口。但我需要發送大量BIG文件(是的,我可以使用摘錄),即使Google是Google,我也不認爲這是公平的。

文檔也不是我的,並且問我的客戶是否可以將它們發送給第三方(即使G 得到它們;))。

我想我會走低谷的Perl路徑...