2015-06-14 74 views
5

是否有一個服務/庫(免費或付費)需要一段文本並返回它的語言?語言檢測API/Library

我需要超過一百萬篇博客文章並確定他們的語言。

+0

你看https://github.com/shuyo/language-detection? – 2015-06-14 17:25:43

+1

查看此問題的答案:http://stackoverflow.com/q/29290107/4588780 –

回答

0

我聽說過langid.py好東西。自述

特點:

  • 快速
  • 預培訓了大量的語言(目前爲97)
  • 不特定域的特性敏感(如HTML/XML標記)
  • 單個.py文件與最小的依賴關係
  • 可部署爲Web服務

https://github.com/saffsd/langid.py