我必須在html源代碼中找到圖像。我使用的是正則表達式而不是html.parser,因爲我知道它更好,但是如果你能向我解釋如何像使用孩子一樣使用html解析,我也很樂意順着這條道路走下去。使用python在html源代碼中查找圖像
不能使用美麗的女孩,希望我能,但我必須學會如何做到這一點。
我已閱讀了很多關於正則表達式和html(example)的問題和解答,所以我意識到了這個話題的感受。
但聽我說!
這裏是我的編碼嘗試(Python 3中):
import urllib.request
import re
website = urllib.request.urlopen('http://google.com')
html = website.read()
pat = re.compile (r'<img [^>]*src="([^"]+)')
img = pat.findall(html)
我雙重檢查我的正則表達式上regex101.com和它的作品在尋找IMG的鏈接,但是當我在怠速運轉時,我得到一個語法錯誤和不斷突出插入。爲什麼?
我走向了正確的方向......是嗎?
更新: 嗨,我想的可能是我簡短的回答,但看起來我可能觸動了社區的神經。
我在編程方面肯定是新的和可怕的,沒有辦法。我一直在閱讀所有評論,我非常感謝用戶向我展示的所有幫助和耐心。
以及在此背景下,這意味着更多的熟悉。我只有被我的老師拋出的HTML解析,沒有工作的例子。有任何線索指向我? – pythonintraining
@ user2799617他是個新手。請儘量多一點文明。從外表看,你對正確的網絡禮儀一無所知。 –
你會得到一個語法錯誤,因爲...這是無效的語法(提示:'re.compile'需要一個字符串)。但是你應該看看BeautifulSoup的html解析器,這裏和其他地方有足夠的例子可以幫助你開始。 – l4mpi