我試圖爬在一個非常基本的方式網站的頁面。但Scrapy無法檢索的所有鏈接。我將解釋該方案如下 -Scrapy不是爬行
main_page.html - >包含鏈接到a_page.html,b_page.html,c_page.html
a_page.html - >包含鏈接到a1_page.html,a2_page.html
b_page.html - >包含鏈接到b1_page.html,b2_page.html
c_page.html - >包含鏈接到c1_page.html,c2_page.html
a1_page.html - >包含鏈接b_page.html
a2_page.html - >包含鏈接c_page.html
b1_page.html - >包含鏈接a_page.html
b2_page.html - >包含鏈接c_page.html
c1_page.html - >包含鏈接a_page.html
c2_page.html - >包含鏈接main_page.html
我使用CrawlSpider以下規則 -
Rule(SgmlLinkExtractor(allow =()), callback = 'parse_item', follow = True))
但抓取結果如下 -
DEBUG:爬(200)的http://localhost/main_page.html>(引薦: 無)2011-12-05 09:56:07 + 05 30 [test_spider] DEBUG:Crawled(200)http://localhost/a_page.html>(引用者: http://localhost/main_page.html)2011-12-05 09:56:07 + 0530 [test_spider] DEBUG:Crawled(200)http: //localhost/a1_page.html> (referer:http://localhost/a_page.html)2011-12-05 09:56:07 + 0530 [test_spider] DEBUG:Crawled(200)http://localhost/b_page.html> (referer: (調用者:http://localhost/b_page.html)2011-12-05 09:56:07 +0530 [test_spider]信息:關閉蜘蛛(已完成)
這不是爬行所有頁面。
注意 - 我已經在Scrapy文檔中指明瞭BFO的抓取。
我錯過了什麼?
謝謝。我正在嘗試添加下載延遲。但我作爲一個例子的網站是在本地主機上運行的,只包含簡單的鏈接。 – Siddharth
沒有沒有工作。在scrapy打印的統計信息中,我收到了類似這樣的內容。 'request_depth_max':5, – Siddharth
你可能會使用DepthMiddleware http://readthedocs.org/docs/scrapy/en/latest/topics/spider-middleware.html 看DepthMiddleware部分 – CodeMonkeyB