2013-10-12 74 views
1

我想檢查一個字符串是否包含|c,但是一些非ascii字符正在製造麻煩,因爲以下代碼返回Match。有沒有辦法忽略非ASCII字符?POSIX正則表達式忽略非ascii字符?

#include <sys/types.h> 
#include <regex.h> 
#include <stdio.h> 
#include <stdlib.h> 
#include <sys/types.h> 

int main(int argc, char *argv[]){ 
     regex_t regex; 
     int reti; 
     char msgbuf[100]; 

/* Compile regular expression */ 
     reti = regcomp(&regex, "\|c", REG_EXTENDED); 
     if(reti){ fprintf(stderr, "Could not compile regex\n"); exit(1); } 

/* Execute regular expression */ 
     reti = regexec(&regex, "<81>U¼T_<84>Ùe/^P^Rï+߶ë", 0, NULL, 0); 
     if(!reti){ 
       puts("Match"); 
     } 
     else if(reti == REG_NOMATCH){ 
       puts("No match"); 
     } 
     else{ 
       regerror(reti, &regex, msgbuf, sizeof(msgbuf)); 
       fprintf(stderr, "Regex match failed: %s\n", msgbuf); 
       exit(1); 
     } 

/* Free compiled regular expression if you want to use the regex_t again */ 
    regfree(&regex); 

     return 0; 
} 

回答

4

輸入中的非ASCII字符不是問題。相反,"\|c"是錯誤的寫作方式"|c"(匹配所有內容)。使用兩個反斜槓(一個可以避免字符串本身的反斜槓):

reti = regcomp(&regex, "\\|c", REG_EXTENDED);