Q

正則表達式庫中的語言環境特定行爲？

2012-01-28 86 views 19 likes

19

當我使用特定語言環境插入正則表達式對象時，它如何影響匹配行爲？它會影響整理或其他任何內容嗎？我似乎無法在任何地方找到解釋。正則表達式庫中的語言環境特定行爲？

2012-01-28 Alex Korban

+0

參見http://stackoverflow.com/q/10540305/83805 – 2012-06-03 21:09:26

+0

@DonStewart：我只對C++特性感興趣。特定場景的行爲並不一定是我想象中的任何地方。 – 2012-06-03 21:12:24

+1

區域設置會影響POSIX兼容的正則表達式引擎，它至少是大多數正則表達式庫的起點。 – 2012-06-03 21:35:33

A

回答

42

它會影響至少包括以下：

整理：具有法語區域設置應匹配字符E充滿正則表達式[a-f]。
同樣，\w在芬蘭語言環境應該匹配字符（但[a-z]應該不作爲，A型和O在芬蘭Z後整理。在德國，但是，[a-z]應該匹配。）
在一個Unicode兼容的語言環境，應該使用Unicode equivalence算法，以便字符的組合形式與分解形式匹配，反之亦然。
對於兼容POSIX的正則表達式（基本，擴展，awk，grep和egrep），POSIX character classes應該是本地感知的：[=e=]應該與法語語言環境中的é匹配，但不能與英語語言環境匹配。

2012-01-28 16:40:14 JohannesD

3

在西班牙語語言環境中，請注意「ch」和「ll」不再視爲字母表中的單個字母，因爲這已由相關實體更改。我無法找到確切的日期，但現在「CH」和「會」是兩個字母：

http://en.wikipedia.org/wiki/Ll

我認爲現在的實現反映了事實。

2012-06-05 10:21:04

相關問題