我可以確定數據是英語還是中文？

2011-07-26 John D

這例如可以使用統計方法。英語具有非常獨特的角色分佈，並且出現在另一個角色之後的角色（這將被稱爲一級模型）的非常獨特的分佈。

如果'e'是最常見的符號，那麼語言不可能是而不是歐洲來源的東西。

通過查看Unicode字符值（如果需要，在字符集之間轉換），也可能會比較平凡（但可能不是100％可靠）來做這樣的區分。如果有一個Unicode值大於127的字符，英語是不太可能的（請注意，雖然有象€這樣的符號）。
如果在數千個字符中有很多Unicode值，則東亞語言的可能性越來越大，並且代碼> 65535被保證爲中文。

來源

2011-07-26 11:28:08 Damon

想想我們識別/區分語言的所有方法是非常有趣的。您可以從關注的所有語言開始，以相同的分數開始，然後按照Damon的規則進行加減，然後選擇列表的頂部，並計算出可能性。 –

這樣做的一個邏輯擴展是用標準的1階算術（或huffman）壓縮器壓縮英文文本並保存模型。然後用相同的壓縮器壓縮未知文本。如果是英文，模型之間的總和誤差應接近於零（或者，如果將模型視爲向量，點積應該接近1）。 – Damon

我的想法是計算Unicode表中字符的平均位置。由於中文字符位於ASCII之後（例如，在127之後），因此您可以輕鬆確定文本是英文還是中文。

編輯：基本上相同的達蒙添加。 > _>

來源

2011-07-26 11:36:18 RolandK

我可以確定數據是英語還是中文？

回答

相關問題