我知道我可以通過使用A-Za-z0-9
正則表達式來提取英文字母和數字。正則表達式來提取其他語言的文字
如何從其他語言(如阿拉伯語)中提取單詞,並且只允許其腳本中的字母和數字以及其他任何內容?
我使用的一種方式是過濾掉我不想從文本中得到的所有內容,然後用剩下的正確詞語來處理,但這種方法需要大量CPU時間,並且在大規模應用程序上效率不高。
現在我想知道還有哪些方法在使用或有人知道可以用來分析其他語言的文本。
如何從中文,日文等語言中提取單詞,甚至不用單詞之間的空格?我用來區分單詞的一種方法是將樣式和換行符視爲一種方法,以認識到它們必須是不同的作品,但是當人們不使用大量換行符或格式化來區分不同的作品時,此方法可能不可靠話。
所以,總結一下,如何能其他語言可以使用正則表達式分析?
哈哈,這就是現在我博格爾斯因爲我不知道該採取什麼樣的方法,因爲我找不到任何可以中國話字典。也許你可以幫我一些鏈接。 – Vish
谷歌搜索免費的中文字典文件給出了這個:http://www.mdbg.net/chindict/chindict.php?page=cedict。我會就如何分隔中文單詞添加另一個答案。 – Nayuki