如果我有一個給定的文本(無論是長文本還是短文本),那麼您通常會使用哪種方法來檢測其寫入的語言?用什麼方法識別文本被寫入的語言?
這是明確表示:
- 你需要訓練語料庫來訓練你使用模型(如神經網絡,如果使用的話)
最簡單的辦法來參加我的頭腦:
- 檢查文本中使用的字符(例如,平假名僅用於日語,變音符號可能只用於歐洲語言,ç用法語,土耳其語,...)
- 加大檢查,以兩個或三個字母對找到一個語言
- 查找字典的特定組合來檢查哪些詞出現在語言(大概只有不制止,如制止取決於語言)
但我想有更好的方法去。我不是在尋找現有的項目(這些問題已經得到解答),但是對於像隱馬爾可夫模型,神經網絡這樣的方法......可以用於這項任務。
可能重複的[返回給定字符串的語言](http://stackoverflow.com/questions/1192768/return-the-language-of-a-given-string)(和其他許多人) –
在這情況下,有一個(未被接受的)答案給出了更多的細節,但這些問題的常見答案是:「你可以在Python中使用項目A或者在C++中使用項目B」而不給出任何關於使用什麼方法的細節一般來說(見我的最後一句話)。 – Aufziehvogel
我很確定[Cavnar&Trenkle算法](http://www.nonlineardynamics。在SO上多次提到過。 –