如何代理添加到BeautifulSoup履帶

2012-09-17 64 views 4 likes

from __future__ import with_statement 

from eventlet.green import urllib2 
import eventlet 
import re 
import urlparse 
from bs4 import BeautifulSoup, SoupStrainer 
import sqlite3 
import datetime

如何我添加了一個旋轉的代理（每線程開一個代理），以遞歸cralwer上BeautifulSoup工作？

我知道，如果我是用機械化的瀏覽器中添加的代理：

br = Browser() 
br.set_proxies({'http':'http://username:[email protected]:port', 
'https':'https://username:[email protected]:port'})

，但我想知道具體是什麼樣的解決方案將BeautifulSoup需要。

非常感謝您的幫助！

來源

2012-09-17 Joe

回答

在使用HTTP代理

http://monzool.net/blog/2007/10/15/html-parsing-with-beautiful-soup/

來源

2012-10-19 08:22:54 Swaroop

擡起頭，有一個不太複雜的解決方案，這可現在，共享here看看BeautifulSoup的例子：

import requests 

proxies = {"http": "http://10.10.1.10:3128", 
      "https": "http://10.10.1.10:1080"} 

requests.get("http://example.org", proxies=proxies)

然後做從請求響應中恢復正常。

所以，如果你想單獨的線程與不同的代理，你可以爲每個請求調用不同的字典條目（例如從一個字典列表）。

當您現有的包使用已經是請求/ bs4時，這似乎更直接實施，因爲它只是在您現有的requests.get()調用中添加的額外**kwargs。您不必爲每個線程初始化/安裝/打開單獨的urllib處理程序。

來源

2018-01-01 16:47:46 Silas

相關問題

11. 履帶腳本php
12. 履帶式標頭
13. 安裝NPM履帶
14. 如何添加背景顏色在html代碼中使用beautifulsoup？
15. Python的履帶 - AttributeError的：履帶式實例沒有屬性 'URL'
16. 如何將代理自動增加鍵添加到表中？
17. 如何在c＃中添加代理＃
18. 如何改變gruntfile並添加代理
19. phantomjsdriver如何添加用戶代理？
20. 如何添加代理支持boost :: asio？
21. 如何將外標籤添加到BeautifulSoup對象
22. Xapian的履帶/解析器
23. 不能履帶式https://www.autorentals.com
24. 履帶式服務器端
25. 乳寧一Scrapy履帶
26. twitter友誼的履帶
27. 轉換履帶的網址
28. 腓履帶從2個HTMLS
29. PHP RSS飼料履帶
30. 錯誤履帶JMeter的