使用urllib2查找和下載網站的圖像

我正在寫一個給定http地址的小程序，它會查找並下載其中的圖像。我現在的情況是這樣的：使用urllib2查找和下載網站的圖像

import urllib2, html 

class HTMLNode(object): 
    def __init__(self,tag,attr,content,closed=True): 
     self.tag = tag 
     self.attr = attr 
     self.content = content 
     self.closed = closed 

    def istext(self): 
     return self.tag == '_text_' 

    def tostring(self): 
     if self.istext(): 
      return self.content 
     ret = '<'+self.tag 
     for k, v in self.attr.items(): 
      ret += ' '+k+'="'+v+'"' 
     ret += '>' 
     if self.closed: 
      for c in self.content: 
       ret += c.tostring() 
      ret += '</'+self.tag+'>' 
     return ret 

    def find_by_tag(self,tag): 
      ret = [] 
      if self.tag == tag: ret += [self] 
      if not self.istext(): 
       for c in self.content: 
        ret += c.find_by_tag(tag) 
      return ret 

def imagegrab(url): 
    req = urllib2.Request(url) 
    response = urllib2.urlopen(req) 
    output = open(url, 'wb') 
    output.write(response.read())

缺少的環節是找到一種方法來使用HTMLNode類的「find_by_tag」功能，使程序將掃描的「」標籤，並從網站上下載的圖片。有人可以幫助我嗎？

來源

2013-01-09 test123

你用Python 3標記了這個，但是使用'urllib2'（一個Python 2 stdlib庫）。標記錯誤或者您正在使用'urllib'。 :-) –

我正在使用Python3 _and_ urllib2，我從來沒有遇到任何問題！ – test123

來自Python 2 ['urllib2'文檔]（http://docs.python.org/2/library/urllib2.html）：* urllib2模塊已經在Python 3中的幾個模塊中分割，名爲'urllib。 request'和'urllib.error'。*對不起，不好意思，但* python 3 *中沒有'urllib2'。 –

其他人已經爲你做了這項工作。具體來說，請看BeautifulSoup，這是一個Python的HTML解析庫。你會這樣做

soup = bs4.BeautifulSoup(...) 
for img in soup("img"): 
    print img.src

或類似;顯然，圖書館比這更強大。

你也可以考慮使用requests，它是一個包含一個簡單的API的urllib系列庫的包裝器。爲此，你會做

soup = bs4.BeautifulSoup(requests.get(url).text)

來源

2013-01-09 08:30:20 katrielalex

謝謝，但我需要使用urllib2，因爲它已經預裝了。 – test123

@ test123--爲什麼需要預先安裝，不能用標準庫解析html。 – root

@root [其實，你可以]（http://docs.python.org/3.0/library/html.parser.html） - 雖然BeautifulSoup有更多的理由。 – katrielalex

使用urllib2查找和下載網站的圖像

回答

相關問題