我正在用Scrapy抓取一個網站,並希望將結果分成兩部分。通常我會這樣稱呼Scrapy:用Scrapy寫入多個文件
$ scrapy crawl articles -o articles.json
$ scrapy crawl authors -o authors.json
這兩個蜘蛛是完全獨立的,完全不通信。此設置適用於較小的網站,但較大的網站只有太多作者才能抓取這樣的內容。
我該如何讓articles
蜘蛛告訴authors
蜘蛛抓取哪些頁面並保持這種雙文件結構?理想情況下,我寧願不將作者網址寫入文件,然後與其他蜘蛛一起閱讀。
我認爲問題將是文件的大小。這個解決方案不會很好地擴展(我相信你已經注意到了)。你有沒有關於這個數據庫或存儲?一些無模式解決方案會出現在我的腦海裏。我不認爲你只會對2個巨大的文件感到滿意。 – DrColossos