0
我想編寫一個python腳本,該腳本僅在網頁包含HTML時才下載網頁。我知道content-type
將在header
中使用。請建議,因爲我無法獲得文件下載前獲得header
的方法。僅當它是HTML網頁時才下載URL
我想編寫一個python腳本,該腳本僅在網頁包含HTML時才下載網頁。我知道content-type
將在header
中使用。請建議,因爲我無法獲得文件下載前獲得header
的方法。僅當它是HTML網頁時才下載URL
使用http.client
向網址發送HEAD
請求。這將僅返回資源的標題,然後您可以查看content-type
標題並查看它是否text/html
。如果是,則向URL發送GET
請求以獲取主體。
@NiklasB。我已經探索了請求對象並嘗試了獲取函數bu,它首先在文件系統上創建一個文件並返回email.mimetype對象。但我只想下載該文件的內容是HTML – chinmayaposwalia 2012-03-17 13:58:14
看看[這個問題](http://stackoverflow.com/questions/843392/python-get-http-headers-from-urllib-call) – 2012-03-17 14:12:09