我正在使用urllib3
構建網絡爬蟲。示例代碼:Python | Http - 無法獲得正確的MIME類型
from urllib3 import PoolManager
pool = PoolManager()
response = pool.request("GET", url)
mime_type = response.getheader("content-type")
我已經在幾個環節迷迷糊糊的文檔文件如DOCX和EPUB,我從服務器獲取MIME類型text/plain
。它是對我很重要,以獲得正確的啞劇類型。
例到有問題的網址:
現在越來越文件的MIME類型是從服務器獲取它,如果沒有可用的試圖獲得該文件的擴展名的邏輯。
爲什麼Firefox
不會被這些類型的網址混淆,讓用戶立即下載文件?它如何知道這個文件不是純文本?我怎樣才能得到正確的mime類型?
你是如何訪問'response'中的mime類型的? – lucasnadalutti
我已更新該問題。 –
這可能是解決此問題的方法。首先將響應保存到臨時文件中。然後爲保存的文件名獲取'content-type'。 [鏈接](http://stackoverflow.com/questions/43580/how-to-find-the-mime-type-of-a-file-in-python) –