2013-07-25 42 views
0

你能幫我找到這2頁,每次在正確的正則表達式來提取(MargauxSaint-Julien):找到相應的正則表達式

page 1Margaux, Rouge

page 22ème Vin, Saint-Julien, Rouge

我的代碼:

item ["appelation"] = res.select('.//div[@class="pro_col_right"]/div[@class="pro_blk_trans"]/div[@class="pro_blk_trans_titre"]/text()').re(r'\s*\w+\-\w+\-\w+|\w+\-\w+|\[^Rouge,Blanc]') 

我的正則表達無法找到瑪歌,但它提取聖朱利安!

+0

什麼是使用正則表達式來提取的東西的確切形式的點你已經知道了? – dkar

回答

0

不知道爲什麼你需要這一點,但假設s是你的HTML文件,然後這個表達式會找你找什麼..

import re 
m = re.search(r"\<div\ class=\"pro_blk_trans_titre\"\>(.*)\</div\>", s) 
print(m.group(1).strip().encode("utf8")) 

# page1: b'Margaux, Rouge' 
# page2: b'2\xc3\xa8me Vin, Saint-Julien, Rouge' 
+0

thx @joente,我想通過遍歷每瓶葡萄酒來自動提取**這個鏈接[鏈接](http://www.nicolas.com/fr/commander_bordeaux.html)上的獲勝**。問題是葡萄酒的頁面結構不相似(查找頁面1和頁面2的鏈接),所以我想使用正則表達式,它可以找到** appelation **無論我的網頁結構如何 – xeroxSO