2013-11-26 92 views
0

我想第一次使用Scrapy。 (是的,我看到了另一篇文章,沒有回答)。所以我想知道讓它運行起來非常簡單。Scrapy TCP連接超時

這裏是我的蜘蛛代碼:

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector 

class Spider(BaseSpider): 
    name = "craigs" 
    allowed_domain = ["craigslist.org"] 
    start_urls = ["http://sfbay.craigslist.org/sfc/npo/"] 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     titles = hxs.select("//p") 
     for titles in titles: 
      title = titles.select("a/text()").extract() 
      link = titles.select("a/@href").extract() 
      print title, link 

和我得到這個錯誤 「TCP連接超時:10060:連接嘗試失敗,因爲連接的方沒有正確一段時間後,應對.. 。「

我試着用另一個網站的URL,但仍然沒有。

如果是可能被阻塞的端口,我應該打開哪些端口(但同時不要讓我的電腦易受攻擊) 謝謝。

回答

-1

您是否使用代理服務器?如果是,請設置http_proxy環境變量或使用scrapy的代理中間件。

+0

...愚蠢的問題我該怎麼做? – lynx

+0

在Windows中:設置http_proxy = http://用戶名:密碼@ proxy:port –