我一直在這裏瀏覽幾篇文章,但我無法讓我的腦袋用Python從給定的URL批量下載圖像和文本。使用Python/urllib/beautifulsoup從URL批量下載文本和圖像?
import urllib,urllib2
import urlparse
from BeautifulSoup import BeautifulSoup
import os, sys
def getAllImages(url):
query = urllib2.Request(url)
user_agent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 1.0.3705)"
query.add_header("User-Agent", user_agent)
page = BeautifulSoup(urllib2.urlopen(query))
for div in page.findAll("div", {"class": "thumbnail"}):
print "found thumbnail"
for img in div.findAll("img"):
print "found image"
src = img["src"]
if src:
src = absolutize(src, pageurl)
f = open(src,'wb')
f.write(urllib.urlopen(src).read())
f.close()
for h5 in div.findAll("h5"):
print "found Headline"
value = (h5.contents[0])
print >> headlines.txt, value
def main():
getAllImages("http://www.nytimes.com/")
以上是現在一些更新的代碼。發生什麼事,什麼都沒有。代碼沒有找到任何與縮略圖的div,顯然,沒有任何結果的打印....所以可能我錯過了一些指向包含圖像和標題的正確divs?
非常感謝!
如果您可以解釋您在嘗試下載文件時遇到的具體問題,可能會得到更詳細的答案。你讀過像http://stackoverflow.com/questions/3042757/downloading-a-picture-via-urllib-and-python,其中包含代碼下載圖片在他們的答案嗎? – Martey