2013-08-23 148 views
3
DEBUG: Retrying 
(failed 2 times): TCP connection timed out: 110: Connection timed out. 

PS: 系統是Ubuntu的, 我能成功地做到這一點:爲什麼我scrapy總是告訴我 「TCP連接超時」

wget的http://www.dmoz.org/Computers/Programming/Languages/Python/Book/

蜘蛛代碼:

#!/usr/bin/python 

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector 

class DmozSpider(BaseSpider): 
    name = "dmoz" 
    allowed_domains = ["dmoz.org"] 
    start_urls = ["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"] 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     sites = hxs.select('//ul/li') 
     for site in sites: 
      title = site.select('a/text()').extract() 
      link = site.select('a/@href').extract() 
      desc = site.select('text()').extract() 
      print title, link, desc 
+2

您可以發佈您的蜘蛛的代碼,scrapy設置和控制檯輸出? –

+0

你可以發佈你的設置嗎? –

+1

您發佈的代碼是真實蜘蛛代碼的摘錄嗎?你的'start_urls'有第二個URL被剝離,或者你有一個語法錯誤。嘗試'start_urls = [「http://www.dmoz.org/Computers/Programming/Languages/Python/Books/」]' –

回答

3

您的網絡中存在問題或端口被阻塞。

還檢查您的設置配置錯誤。

+0

我的系統是ubuntu,它的端口是打開的default.So,現在我真的不知道「TCP連接超時:110:連接超時。」 – gangzi

+0

我在Windows 7上。在我的情況下,你是對的:我在另一個網絡上啓動並運行。 –

0

你有額外的"使用語法錯誤:

start_urls=["http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"‌​] 
相關問題