2013-07-11 69 views
0

我已經編寫了一個腳本(see here)以從模板目錄中獲取所有網址,但是某些hrefs包含兩個要使用的網址,具體取決於應用的語言運行英寸如何在字符串中找到多個網址(href屬性)

所以我的腳本目前給我的是href='here',但現在我也想從一個href收集的URL列表看起來像這樣;

href="{{ 'http://www.link.com/blah/page.htm'|cy:'http://www.link.com/welsh/blah/page.htm' }}" 

需要什麼正則表達式來返回這些? (由於有這麼多的人,我在正則表達式太可怕了!)

回答

2

喜歡的東西:

href="{{ 'http://www.link.com/blah/page.htm'|cy:'http://www.link.com/welsh/blah/page.htm' }}" 

import re 
print re.findall("'(http://(?:.*?))'", href) 
# ['http://www.link.com/blah/page.htm', 'http://www.link.com/welsh/blah/page.htm'] 

拿什麼以http://這裏面撇號。

+0

+1您也可以添加'http(s)?'來處理http和https。 –

+0

@AshwiniChaudhary yup,或者只是's?'會做到這一點...假設它應該由OP來處理,如果他們想要處理那個/任何其他協議... –

+0

很好。我試圖通過開始和結束字符查找。 're.findall(''(http [s]://'是否可以匹配http和https?我已經看過一個例子中使用了's',但是並沒有完全理解它 –

相關問題