我爬過一個HTML頁面,我想提取img srcs和一個hrefs。正則表達式來解析HTML imgs
在特定的網站上,它們都被封裝在雙引號中。
我試過各種各樣的正則表達式沒有成功。假定雙引號內的字符將是[ - \ W /](可打印的字符[A-ZA-Z \ d-_]和/和。)
在蟒:
re.search(r'img\s+src="(?P<src>[\w-/]+_"', line)
隱而不宣」 T迴流什麼,但
re.search(r'img\s+src="(?P[-\w[/]]+)"', line)
返回wayy得多(即,不會在「停止)。
我需要幫助創建預先正確的正則表達式。謝謝!
Obligatory:http://stackoverflow.com/a/1732454/350351 – Daenyth 2012-04-27 15:54:57
確實,不能用正則表達式來解析html,但是你可以在裏面找到某些東西,對於快速腳本等等,它可能是正確的工具。 – OlliM 2012-04-27 15:58:00
@達尼,是的,我知道。我已經爲定期和上下文無關語法的抽象引理指導了許多人。我試圖找到的正則表達式只是標籤內的一個字段,這當然是非常規則的。 – 2012-04-27 16:04:49