Scrapy的JOBDIR設置快速複製項目提供可恢復爬網,描述如下:Scrapy - 使用JOBDIR
http://doc.scrapy.org/en/latest/topics/jobs.html
我嘗試這樣執行我的檢索命令:
scrapy crawl myspider -o out.csv -t csv -s JOBDIR=./jobs/run-1
雖然它仍在運行,我按CTRL-C優雅地關閉它。然後再次發出相同的命令以恢復它。我可以證實,它是從終端輸出恢復抓取:
[myspider] INFO: Resuming crawl (74 requests scheduled)
但是,當我看到我的輸出CSV文件,我看到有重複的項目是這樣的:
name,email
Alice,[email protected]
Bob,[email protected]
...
name,email <- duplicated header!
Bob,[email protected] <- duplicated row!
...
這是正常的嗎?我想知道在同一個命令中是否可以使用-o
選項和JOBDIR
。如果不是,我如何導出抓取的項目?
順便說一句,我正在使用Scrapy 0.22.1。
謝謝!