爲什麼我的scrapy沒有在start_urls列表中使用所有的url？

-1

我的start_urls列表中有近300個網址，但scrapy只能篡改大約200個網址。但並非所有這些列出的網址。我不知道爲什麼？我如何處理這件事。我必須從網站上塗寫更多的項目。爲什麼我的scrapy沒有在start_urls列表中使用所有的url？

我不明白的另一個問題是：如何在scrapy完成時看到日誌錯誤？從終端或我必須編寫代碼來查看日誌錯誤。我認爲日誌默認是啓用的。

感謝您的回答。

更新：

輸出爲以下。我不知道爲什麼只有2829件物品被刮掉。實際上，我的start_urls中有600個網址。

但是，當我在start_urls中只給400個URL時，它可以刮掉6000個物品。我期望幾乎刮掉www.yhd.com的整個網站。任何人都可以提供更多建議嗎？

2014-12-08 12:11:03-0600 [yhd2] INFO: Closing spider (finished) 
2014-12-08 12:11:03-0600 [yhd2] INFO: Stored csv feed (2829 items) in myinfoDec.csv   
2014-12-08 12:11:03-0600 [yhd2] INFO: Dumping Scrapy stats: 
{'downloader/exception_count': 1, 
'downloader/exception_type_count/twisted.web._newclient.ResponseNeverReceived': 1, 
'downloader/request_bytes': 142586, 
'downloader/request_count': 476, 
'downloader/request_method_count/GET': 476, 
'downloader/response_bytes': 2043856, 
'downloader/response_count': 475, 
'downloader/response_status_count/200': 474, 
'downloader/response_status_count/504': 1, 
'finish_reason': 'finished', 
'finish_time': datetime.datetime(2014, 12, 8, 18, 11, 3, 607101), 
'item_scraped_count': 2829, 
'log_count/DEBUG': 3371, 
'log_count/ERROR': 1, 
'log_count/INFO': 14, 
'response_received_count': 474, 
'scheduler/dequeued': 476, 
'scheduler/dequeued/memory': 476, 
'scheduler/enqueued': 476, 
'scheduler/enqueued/memory': 476, 
'start_time': datetime.datetime(2014, 12, 8, 18, 4, 19, 698727)} 
2014-12-08 12:11:03-0600 [yhd2] INFO: Spider closed (finished)

來源

2014-12-05 mootvain

關於日誌，也許你應該設置日誌級別爲DEBUG？關於這些網址的 – elias 2014-12-06 00:09:14

，你確定其中沒有一個是重複的嗎？ scrapy過濾重複的請求。 – elias 2014-12-06 00:10:32

雖然代碼似乎啓用dont_filter在start_urls中的URL的選項：https://github.com/scrapy/scrapy/blob/master/scrapy/spider.py#L60 – elias 2014-12-06 00:11:19

我終於解決了這個問題....

首先，它不抓取start_urls列出的所有網址，是因爲我在URL中start_urls一個錯字。其中一個「http：// ...」被錯誤地寫爲「ttp：// ...」，第一個'h'丟失。然後，蜘蛛停下來看着後面列出的其他網址。 Horrifed。

其次，我通過點擊Pycharm的配置面板解決了日誌文件問題，該面板提供了顯示日誌文件面板。順便說一句，我的scrapy框架被放到Pycharm IDE中。這對我很有效。不是廣告。

感謝您的所有意見和建議。

來源

2014-12-13 16:14:48 mootvain

爲什麼我的scrapy沒有在start_urls列表中使用所有的url？

回答

相關問題