2016-01-20 34 views
0

我試着去湊圖像這個網站刮圖片: http://mis.historiska.se/mis/sok/bild.asp?uid=336358&g=1沒有exension

該網站還需要下載不同尺寸的選項,像大的形象在這裏: http://catview.historiska.se/catview/media/highres/336358

我沒有問題,下載手冊,抓取圖片,甚至刮掉網址,但圖片和網址缺少圖片擴展名。

我需要刮完整的URL與文件名和擴展名。,不是實際的圖像。

在這裏,我的頭撞牆,任何人有一個想法?

回答

1

正確這樣做的方法是在向給定的URL請求文件名和擴展名後檢查標頭。一個簡單的捲曲請求到指定網址給我的迴應如下:

HTTP/1.1 200 OK 
Server: Apache-Coyote/1.1 
Content-Type: image/jpeg 
Content-Length: 569050 
Date: Wed, 20 Jan 2016 15:33:49 GMT 

猜測文件擴展名是隻檢查「內容類型」標頭的最好方法。同樣,爲了獲得文件名,我們將使用「Content-Disposition」標頭,其中不一定需要在標頭中提供,在這種情況下,我們需要從URL中猜出文件名。 猜測擴展的一個簡單的python片段如下:

import requests 
import mimetypes 
resp = requests.get(url) 
content_type = resp.headers['content-type'] 
ext = mimetypes.guess_extension(content_type) 
+0

感謝您的回答。 但不幸的是我沒有編碼器,不知道你在說什麼,捲曲,標題,Phyton等。但那不是你的錯。我應該提到這一點。 非常感謝您的幫助。我想這個網站是我的頭腦,必須拋棄它的想法。 如果還有其他人可以通過easyer的解釋,「正常」的人可以理解,請讓我知道:) –

+0

@AndersRoss既然你提到你** **網站,我自動假設你可能會使用一些或其他類型的代碼/片段來爲你做這項工作。似乎是一個不好的假設。 – r3ign

+0

是的,即時通訊使用cloudscrape。它的點和點擊界面。 這就是我所有的大腦都可以處理的:) 我可以在沒有問題的情況下拍攝照片,但那不是我所需要的。我只需要圖像的完整url,女巫似乎不可能。 雖然感謝您的努力。 –