unicode字符串的正則表達式

我有一些文本數據的文件。我需要從這個文件中得到所有有趣的字符串。所有有趣的字符串都以「\ x01 \ x00 \ x00 \ x00」和「\ x00」爲框架。我嘗試使用以下正則表達式來查找這些字符串：unicode字符串的正則表達式

(\x01\x00\x00\x00[\u0000-\uFFFF]+\x00)

但它無法正常工作。我究竟做錯了什麼？完整的代碼是在這裏：

# -*- coding: utf-8 -*- 

import re 

file = open(r"H:\1705\test.adb") 
temp = file.readlines() 
resString = "" 
for line in temp: 
    resString += line 
p = re.compile(ur"(\x01\x00\x00\x00[\u0000-\uFFFF]+\x00)", re.UNICODE) 
res = p.finditer(resString) 
for match in res: 
    print match.group()[0].decode("cp1251")

來源

2012-05-01 dizpers

如果是unicode，是哪種編碼？你爲什麼不打開文件解碼編碼？你爲什麼從'cp1251'解碼？ – beerbajay

在正則表達式的一個反斜槓特殊字符來壓抑自己的特殊含義，例如，如果你想搜索的使用正則表達式點你會使用\.。

要搜索一個反斜槓，因此，你可能需要使用\\，導致你的搜索字符串是

\\x01\\x00\\x00

等。

來源

2012-06-21 04:57:58 Nit

unicode字符串的正則表達式

回答

相關問題