Q
用機械化下載文件
4
A
回答
1
可能不是你要找的答案,但我已經使用LXML並請求庫一起自動錨取:
相關LXML例子http://lxml.de/lxmlhtml.html#examples(與要求更換的urllib)
而請求庫主頁http://docs.python-requests.org/en/latest/index.html
它不像機械化一樣緊湊,但提供更多的控制。
3
import urllib, urllib2,cookielib, re
#http://www.crummy.com/software/BeautifulSoup/ - required
from BeautifulSoup import BeautifulSoup
HOST = 'https://www.adobe.com/'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
req = opener.open(HOST + 'pdf')
responce = req.read()
soup = BeautifulSoup(responce)
pdfs = soup.findAll(name = 'a', attrs = { 'href': re.compile('\.pdf') })
for pdf in pdfs:
if 'https://' not in pdf['href']:
url = HOST + pdf['href']
else:
url = pdf['href']
try:
#http://docs.python.org/library/urllib.html#urllib.urlretrieve
urllib.urlretrieve(url)
except Exception, e:
print 'cannot obtain url %s' % (url,)
print 'from href %s' % (pdf['href'],)
print e
else:
print 'downloaded file'
print url
相關問題
- 1. 使用Ruby機械化下載文件
- 2. 使用Python機械化下載文件
- 3. 機械化流下載python
- 4. 使用原始文件名的Python機械化下載文件
- 5. 使用Python機械化下載循環中的文件
- 6. 下載PDF文件是使用紅寶石機械化
- 7. 使用機械化下載多線程文件?
- 8. Rails:通過機械化自定義文件名下載
- 9. 與蟒蛇下載zip文件機械化
- 10. Python下載文件時沒有機械化的直接鏈接
- 11. Python機械化檢測下載的文件擴展名
- 12. 用WWW保存文件::機械化
- 13. 使用機械化
- 14. 使用機械化點擊下一頁?
- 15. 與機械化上傳文件的Ruby
- 16. 保存紅寶石文件機械化
- 17. 是有可能轉換機械化::文件到機械化::頁面
- 18. 機械化Javascript
- 19. 在機械化
- 20. 與機械化
- 21. Python:機械化
- 22. 紅寶石機械化:如何讀取下載的二進制CSV文件
- 23. 如何保存通過按鈕點擊機械化下載的文件
- 24. LoadError:沒有這樣的文件加載 - 機械化
- 25. 機械化重定向/引入nokogiri(使用機械化小白)
- 26. 如何使用其生成的文件名使用ruby和機械化來下載文件?
- 27. 無法使用機械化
- 28. 用Ruby解析機械化
- 29. 使用WWW ::機械化
- 30. 使用機械化與Python
嗨大衛,我打算試一試吧 – Dave