1
我有一些文本數據的文件。我需要從這個文件中得到所有有趣的字符串。所有有趣的字符串都以「\ x01 \ x00 \ x00 \ x00」和「\ x00」爲框架。我嘗試使用以下正則表達式來查找這些字符串:unicode字符串的正則表達式
(\x01\x00\x00\x00[\u0000-\uFFFF]+\x00)
但它無法正常工作。我究竟做錯了什麼?完整的代碼是在這裏:
# -*- coding: utf-8 -*-
import re
file = open(r"H:\1705\test.adb")
temp = file.readlines()
resString = ""
for line in temp:
resString += line
p = re.compile(ur"(\x01\x00\x00\x00[\u0000-\uFFFF]+\x00)", re.UNICODE)
res = p.finditer(resString)
for match in res:
print match.group()[0].decode("cp1251")
如果是unicode,是哪種編碼?你爲什麼不打開文件解碼編碼?你爲什麼從'cp1251'解碼? – beerbajay