4
A
回答
6
鑑於您擁有需要識別的所有不同語言的語料庫數據,有一種非常簡單的方法可以做到這一點。它被稱爲n-gram建模。我認爲Lingua::Identify已經這樣做了,所以這是你最好的選擇,而不是實現你自己的。
0
似乎是這個Perl模塊:Lingua::Identify
保羅。
0
我會說你最好的選擇是尋找關鍵詞 - 文章,那種東西 - 這對你正在尋找的語言來說是獨一無二的。例如,「Un」將以西班牙語和法語顯示,但「une」可識別爲法語,而「unos」則可識別爲西班牙語。變音符號也很有用 - 你會看到西班牙語和可能葡萄牙語中的「ñ」,法語中的「ç」和其他一些......這種事情。
編輯 - 保羅的解決方案可能是最好的;看起來像它使用我所概述的方法,再加上一些額外的東西。
0
通過運行谷歌搜索「determine language of document」,我發現許多不同的網站,將幫助你。第一頁上的第三個鏈接最終導致我在Google Code API中使用了function,這正是您所需要的。
0
谷歌翻譯API很酷,並有一個REST接口。但我需要發送大量BIG文件(是的,我可以使用摘錄),即使Google是Google,我也不認爲這是公平的。
文檔也不是我的,並且問我的客戶是否可以將它們發送給第三方(即使G 將得到它們;))。
我想我會走低谷的Perl路徑...
相關問題
- 1. 人類標記語言
- 2. 解釋人類語言
- 3. 跨多種人類語言統一enum.values()
- 4. 在Python中翻譯人類語言
- 5. 更改語言輸入類型=文件
- 6. 俄語語言的文本分類
- 7. 語言文件夾
- 8. LDAP屬性用於編碼人類用戶母語的語言?
- 9. 語言文件的單獨文件夾
- 10. 有沒有人有Notepad ++的JSP語言文件?
- 11. 語言= 「JavaScript的」 與類型= 「文/ JavaScript的」
- 12. 輸入類型=文件文件上傳語言
- 13. 從語言類獲取語言
- 14. Typo3訴4.3.3語言文件
- 15. 翻譯PHP語言文件
- 16. C#XML語言文件
- 17. Xtext - 多文件語言
- 18. 笨語言文件錯誤
- 19. WordPress - 更新語言文件
- 20. 更改語言文件
- 21. Javascript語言,HTA文件
- 22. 多語言JSON文件
- 23. DatagridView雙語言頭文件
- 24. C語言,文件結構
- 25. 動態類型語言中的文檔
- 26. 帶語言文件的PHP多語言網站
- 27. 兩種不同語言的android語言文件夾
- 28. Joomla 3插件中的語言文件
- 29. Joomla!俄語語言文件(ini)問題
- 30. 彈性搜索類似於JQL(jira查詢語言)的人類友好查詢語言