我在這個項目上工作和特殊字符快把我逼瘋了!我已經在foruns周圍搜索了很多解決方案,但他們沒有解決我的問題。字符串包含特殊字符不使用Python工作,正則表達式
我有這個字符串特殊字符:
['{"response":{"startRow":0,"endRow":5,"totalRows":5,"data": [{"CODIGO":"72","DESCRICAO":"RECEITA INTRA-ORÇÁMENTÁRIAS DE CONTRIBUÇÕES","PREVISTA":225847716.0,"REALIZADA":165311075.58,"DIFERENCA":60536640.42,"R___":1.0},{"CODIGO":"76","DESCRICAO":"RECEITA INTRA-ORÇAMENTÁRIAS DE SERVIÇOS","PREVISTA":22367493.0,"REALIZADA":3435363.08,"DIFERENCA":18932129.92,"R___":2.0},{"CODIGO":"77","DESCRICAO":"TRANSFERÊNCIAS INTRA-ORÇAMENTÁRIAS CORRENTES","PREVISTA":1218252.0,"REALIZADA":0.0,"DIFERENCA":1218252.0,"R___":3.0},{"CODIGO":"71","DESCRICAO":"RECEITA TRIBUTÁRIA INTRA-ORÇAMENTÁRIA","PREVISTA":12000.0,"REALIZADA":0.0,"DIFERENCA":12000.0,"R___":4.0},{"CODIGO":"79","DESCRICAO":"OUTRAS RECEITAS INTRA-ORÇAMENTÁRIAS CORRENTES","PREVISTA":0.0,"REALIZADA":311785.30,"DIFERENCA":-311785.30,"R___":5.0}]}}']
而且我必須找到使用正則表達式一些具體的字符串,但我有十個分量的特殊字符。
我已經嘗試了一些事情:
nkfd_form = unicodedata.normalize('NFKD', unicode(html))
print u"".join([c for c in nkfd_form if not unicodedata.combining(c)])
print ' '.join(re.findall(r'(?:\w{3,}|-(?=\s))', html))
print ' '.join(''.join([i if ord(i) < 128 else ' ' for i in html]).split())
和很多其他的東西......
但是當我搜索使用我的模式:
result = re.findall('(:\"[\w\-r"/" ]+"|:[\w\s.\-r"/" ]+)', html, re.U)
特殊字符AREN沒錯。結果是這樣的:
[':0', ':2', ':2', ':"94"', ':"DEDU', ':0.0', ':-2748373.25', ':2748373.25', ':1.0', ':"95"', ':"DEDU', ':-1421484000.0', ':-1062829156.22', ':-358654843.78', ':2.0']
[':0', ':5', ':5', ':"72"', ':"RECEITA INTRA-OR', ':225847716.0', ':165311075.58', ':60536640.42', ':1.0', ':"76"', ':"RECEITA INTRA-OR', ':22367493.0', ':3435363.08', ':18932129.92', ':2.0', ':"77"', ':"TRANSFER', ':1218252.0', ':0.0', ':1218252.0', ':3.0', ':"71"', ':"RECEITA TRIBUT', ':12000.0', ':0.0', ':12000.0', ':4.0', ':"79"', ':"OUTRAS RECEITAS INTRA-OR', ':0.0', ':311785.30', ':-311785.30', ':5.0']
它忽略了特殊字符!
我需要它,因爲我會在一個CSV文件中寫入數據,它不會有這樣的錯誤工作。
一個簡單的測試使用提示:
>>> import re
>>> re.findall('\w+', 'Márquez', re.U)
['M\xc3', 'rquez']
我有什麼做的,解決這一問題?
你的字符串似乎是有效的JSON代碼。那麼爲什麼你把它稱爲「html」(你的變量的名稱)?爲什麼不使用[json模塊](http://docs.python.org/library/json.html)?並且永遠記得[Jamie Zawinski着名的說法](http://regex.info/blog/2006-09-15/247)。 – pillmuncher
讓我們從_simple test_開始(在你的問題中的最後一節):不要在控制檯上輸入,而是要創建py文件,確保它是UTF-8,運行它。它工作嗎? - 它應該工作,如果是這樣,那麼你的控制檯編碼不是unicode。輸入文件也是如此。 –
順便說一句,你使用什麼py版本,2.x或3.x? –