2013-01-21 106 views
3

我想使用Python urllib2從網站上節省一些圖片,但是當我運行該代碼可以節省別的東西來保存從Web圖像。無法使用的urllib2

這是我的代碼:

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
headers = { 'User-Agent' : user_agent } 
url = "http://m.jaaar.com/" 
r = urllib2.Request(url, headers=headers) 
page = urllib2.urlopen(r).read() 

soup = BeautifulSoup(page) 
imgTags = soup.findAll('img') 
imgTags = imgTags[1:] 


for imgTag in imgTags: 
    imgUrl = "http://www.jaaar.com" + imgTag['src'] 
    imgUrl = imgUrl[0:-10] + imgUrl[-4:] 
    fileName = "khabarnak-" + imgUrl[-12:] 
    print fileName 

    imgData = urllib2.urlopen(imgUrl).read() 
    print imgUrl 

    output = open("C:\wamp\www\py\pishkhan\\" + fileName,'wb') 
    output.write(imgData) 
    output.close() 

有什麼建議?因爲你刮網站

+0

它可以節省什麼「別的東西」? –

+0

我無法重現你的問題。我得到正確的JPG圖像。 –

回答

8

該網站返回一個標準圖像還給你。使用與檢索圖像時設置標題相同的「技巧」:

imgRequest = urllib2.Request(imgUrl, headers=headers) 
imgData = urllib2.urlopen(imgRequest).read()