對不起,有點笨,但我真的需要Python的幫助。用正則表達式解析Python 2.7中的html - 真的不明白
['<a href="needs to be cut out">Foo to BAR</a>', '<a href="this also needs to be cut out">BAR to Foo</a>']
所以我有這樣的元組,而我需要切出那是什麼href屬性內,裏面有什麼<a>
標籤 - 基本上,我希望得到一個元組,看起來像:
[["needs to be cut out", "Foo to BAR"], ["this also needs to be cut out", "BAR to Foo"]]
內href屬性有很多,例如特殊符號,
<a href="?a=p.stops&direction_id=23600&interval=1&t=wml&l=en">
正如我認爲,有一個在使用HTML解析器太麻煩了,如果我真的不需要嘗試解析對象樹,但只需要網頁中的幾個url和單詞。但我無法真正理解如何形成正則表達式。我形成的正則表達式似乎完全錯誤。所以我問是否有人可以幫助我。