用什麼方法識別文本被寫入的語言？

如果我有一個給定的文本（無論是長文本還是短文本），那麼您通常會使用哪種方法來檢測其寫入的語言？用什麼方法識別文本被寫入的語言？

這是明確表示：

最簡單的辦法來參加我的頭腦：

但我想有更好的方法去。我不是在尋找現有的項目（這些問題已經得到解答），但是對於像隱馬爾可夫模型，神經網絡這樣的方法......可以用於這項任務。

可能重複的[返回給定字符串的語言]（http://stackoverflow.com/questions/1192768/return-the-language-of-a-given-string）（和其他許多人） –

在這情況下，有一個（未被接受的）答案給出了更多的細節，但這些問題的常見答案是：「你可以在Python中使用項目A或者在C++中使用項目B」而不給出任何關於使用什麼方法的細節一般來說（見我的最後一句話）。 – Aufziehvogel

我很確定[Cavnar＆Trenkle算法]（http：//www.nonlineardynamics。在SO上多次提到過。 –

在產品我正在使用我們使用基於字典的方法。計算訓練語料庫中所有詞的第一個相對概率，並將其存儲爲模型。

然後逐字處理輸入文本以查看特定模型是否給出最佳匹配（好於其他模型）。

在某些情況下，所有模型都提供相當差的匹配。

幾個有趣的要點：

同樣爲了更好的檢測，我們正在考慮按照您所描述的方式添加每字符模型（某些語言具有某些獨特字符）

順便說一下，我們使用ICU庫來分割單詞。適用於歐洲和東方語言（目前我們支持中文）的效果相當好

2012-05-17 13:20:52

檢查Cavnar和Trenkle算法。

2012-05-18 17:16:30 Aufziehvogel

回答