2015-07-05 114 views
3

我一直在使用antlr4解析德國的文件,到目前爲止,我還做了以下解析,其中包括德國的字符的文本:antlr4和國際字符

LETTERS: 
[a-zA-Z_\u00DC\u00FC\u00D6\u00F6\u00C4\u00E4\u00DF]; // hex unicodes for ÜüÖöÄäß 

什麼是描述語言字符的最佳方式用antlr理解的所有語言中的所有語言,而無需單獨指定每種語言/字符?說法語,阿拉伯語還是中文,日文字符?

謝謝

回答

2

最好的辦法是使用範圍對應於所需的Unicode字符類。即使如此,結果可能有點笨拙。請參閱worked example

Unicode標準的附錄表中可用的原始數據可能會被剝離並轉化爲可用的格式,只需要花費太多精力。 ;)