我在寫字典應用程序。如果用戶輸入一個Unicode字符,我想檢查該字符是哪種語言。粗糙的Unicode - >沒有CLDR的語言代碼?
例如
字 - returns ['zh', 'ja', 'ko']
العربية - returns ['ar']
a - returns ['en', 'fr', 'de'] //and many more
й - returns ['ru', 'be', 'bg', 'uk']
我搜索,發現它可能與CLDR做https://stackoverflow.com/a/6445024/41948
或谷歌API Python - can I detect unicode string language code?
但在我的情況下
- 找了一個大字符映射分貝似乎花費大量的存儲和內存
- 調用API的速度太慢,除了需要網絡連接離子
- 不需要非常準確。只需約80%的正確率即可
- 簡單&快速是主要要求
- 只需覆蓋UCS2 BMP字符即可。
任何提示?
我需要在Python和Javascript中使用它。謝謝!
它可能有助於評估可能的方法,知道爲什麼你會這樣做。對於在某些大型語言列表中使用字母「a」的信息,您會做什麼? –
也許「a」只是一個不好的例子。正如我所提到的,我正在撰寫一本詞典應用程序,這意味着我可以根據用戶正在嘗試查找的語言提供更多信息(或廣告)。 – est
我認爲「a」就是一個很好的例子:將會有數百種可能的語言,所以猜測*語言將是相當困難的。 –