我很難弄清楚Scrapy是如何工作的(或者我需要如何使用它)。 這個問題有點寬泛 - 更多的理解。Scrapy - 抓取蜘蛛的流程
我設置了一個CrawlSpider並投入了6個啓動網址。
從這些(24個項目來颳去每個啓動url),我預計大約144行結束在我的數據庫中,但我現在只有18。
所以我用
def parse_start_url(self, response):
,以避免併發症的規則現在。 現在Scrapy應該抓取這6個URL並抓取它們,然後處理這些頁面上的項目。 但相反,它似乎需要這6個網址,然後檢查這些網頁上的每個鏈接,並首先遵循這些鏈接 - 這可能嗎?
Scrapy是否只需要URL 1,掃描所有鏈接並遵循允許的一切?
它什麼時候需要URL 2?
啊是的 - 非常好。如果不知道正確的關鍵字(LIFO/DFO/BFO等),就很難找到它。不得不從該頁面上沒有記錄的scrapy import squeue'。 但現在結果看起來更好。 – Chris