0

我想編寫一個python腳本,該腳本僅在網頁包含HTML時才下載網頁。我知道content-type將在header中使用。請建議,因爲我無法獲得文件下載前獲得header的方法。僅當它是HTML網頁時才下載URL

+0

@NiklasB。我已經探索了請求對象並嘗試了獲取函數bu,它首先在文件系統上創建一個文件並返回email.mimetype對象。但我只想下載該文件的內容是HTML – chinmayaposwalia 2012-03-17 13:58:14

+0

看看[這個問題](http://stackoverflow.com/questions/843392/python-get-http-headers-from-urllib-call) – 2012-03-17 14:12:09

回答

2

使用http.client向網址發送HEAD請求。這將僅返回資源的標題,然後您可以查看content-type標題並查看它是否text/html。如果是,則向URL發送GET請求以獲取主體。

相關問題