2011-07-26 33 views

回答

7

這例如可以使用統計方法。英語具有非常獨特的角色分佈,並且出現在另一個角色之後的角色(這將被稱爲一級模型)的非常獨特的分佈。

如果'e'是最常見的符號,那麼語言不可能是而不是歐洲來源的​​東西。

通過查看Unicode字符值(如果需要,在字符集之間轉換),也可能會比較平凡(但可能不是100%可靠)來做這樣的區分。如果有一個Unicode值大於127的字符,英語是不太可能的(請注意,雖然有象€這樣的符號)。
如果在數千個字符中有很多Unicode值,則東亞語言的可能性越來越大,並且代碼> 65535被保證爲中文。

+0

想想我們識別/區分語言的所有方法是非常有趣的。您可以從關注的所有語言開始,以相同的分數開始,然後按照Damon的規則進行加減,然後選擇列表的頂部,並計算出可能性。 –

+0

這樣做的一個邏輯擴展是用標準的1階算術(或huffman)壓縮器壓縮英文文本並保存模型。然後用相同的壓縮器壓縮未知文本。如果是英文,模型之間的總和誤差應接近於零(或者,如果將模型視爲向量,點積應該接近1)。 – Damon

5

我的想法是計算Unicode表中字符的平均位置。由於中文字符位於ASCII之後(例如,在127之後),因此您可以輕鬆確定文本是英文還是中文。

編輯:基本上相同的達蒙添加。 > _>

相關問題