僅當它是HTML網頁時才下載URL

我想編寫一個python腳本，該腳本僅在網頁包含HTML時才下載網頁。我知道content-type將在header中使用。請建議，因爲我無法獲得文件下載前獲得header的方法。僅當它是HTML網頁時才下載URL

@NiklasB。我已經探索了請求對象並嘗試了獲取函數bu，它首先在文件系統上創建一個文件並返回email.mimetype對象。但我只想下載該文件的內容是HTML – chinmayaposwalia 2012-03-17 13:58:14

看看[這個問題]（http://stackoverflow.com/questions/843392/python-get-http-headers-from-urllib-call） – 2012-03-17 14:12:09

使用http.client向網址發送HEAD請求。這將僅返回資源的標題，然後您可以查看content-type標題並查看它是否text/html。如果是，則向URL發送GET請求以獲取主體。

2012-03-17 14:16:03

回答