是否有可能確定數據是英文還是中文?我可以確定數據是英語還是中文?
3
A
回答
7
這例如可以使用統計方法。英語具有非常獨特的角色分佈,並且出現在另一個角色之後的角色(這將被稱爲一級模型)的非常獨特的分佈。
如果'e'是最常見的符號,那麼語言不可能是而不是歐洲來源的東西。
通過查看Unicode字符值(如果需要,在字符集之間轉換),也可能會比較平凡(但可能不是100%可靠)來做這樣的區分。如果有一個Unicode值大於127的字符,英語是不太可能的(請注意,雖然有象€這樣的符號)。
如果在數千個字符中有很多Unicode值,則東亞語言的可能性越來越大,並且代碼> 65535被保證爲中文。
5
我的想法是計算Unicode表中字符的平均位置。由於中文字符位於ASCII之後(例如,在127之後),因此您可以輕鬆確定文本是英文還是中文。
編輯:基本上相同的達蒙添加。 > _>
相關問題
- 1. 如何查找數據是英文還是中文
- 2. WP7 - 確定文化是英制還是公制
- 3. 如何確定一個字符串是英語還是波斯語?
- 4. 我可以使用「HostingEnvironment」來確定它是Web還是Win
- 5. 我可以確定Ctrl鍵是按下Ctrl還是Right Ctrl?
- 6. 我可以確定一個KeyEventArg是一個字母還是數字?
- 7. 我們可以從TCP層確定給定的請求是HTTP還是非HTTP?
- 8. 我們可以將文本轉換爲語音還是反之?
- 9. 檢測文本的語言是PDF還是DOC文件中的英文
- 10. 確定文本是否爲英文?
- 11. 確定文本是否爲英文
- 12. 確定url是pdf還是html文件
- 13. 如何檢查單詞是日語還是英語?
- 14. 我可以檢查我的數據庫是否還活着?
- 15. 確定參數是類還是協議
- 16. 確定char是數字還是字母
- 17. 如何在android中檢查給定的文本是英文還是中文?
- 18. System.Windows.Forms.InputLanguage.CurrentInputLanguage總是給我英語
- 19. 確定可執行文件(或庫)是32位還是64位
- 20. PostgreSQL中的全文索引(不是'英文'還是'簡單')?
- 21. 檢查特殊字符是中文還是英文
- 22. 確定接收到的數據是PostScript還是PCL
- 23. Excel確定單元格的數據類型是DateTime還是Int
- 24. 確定瀏覽器是使用移動數據還是WiFi?
- 25. 如何確定mysql數據庫的類型:是InnoDB還是MyISAM?
- 26. QtLocation和OpenStreetMap:是否可以在非英語國家獲得英文標籤?
- 27. 是否可以確定從活動返回的數據是字符串還是字符串[]?
- 28. 如何確定給定路徑是文件還是文件夾?
- 29. 在Flex中,可以確定代碼是在Web還是AIR上運行?
- 30. 檢查UI_USER_INTERFACE_IDIOM()以確定它是iPhone還是iPad是否安全?
想想我們識別/區分語言的所有方法是非常有趣的。您可以從關注的所有語言開始,以相同的分數開始,然後按照Damon的規則進行加減,然後選擇列表的頂部,並計算出可能性。 –
這樣做的一個邏輯擴展是用標準的1階算術(或huffman)壓縮器壓縮英文文本並保存模型。然後用相同的壓縮器壓縮未知文本。如果是英文,模型之間的總和誤差應接近於零(或者,如果將模型視爲向量,點積應該接近1)。 – Damon