2017-03-02 30 views
0

我寫了一些Scrapy蜘蛛。它將數據導出到我通過命令行傳遞的名稱:E:\Anaconda3\envs\Blog2Doc\Lib\site-packages\scrapy\cmdline.py runspider blog2doc_scrapy\spiders\blog_spider.py -o ..\data\out.html。如果這個文件已經存在,這個蜘蛛只是將內容附加到已存在的文件中。如何檢查輸出文件是否已經存在並且是否存在 - 刪除它。爲了導出到文件,我編寫了Blog2DocExporter(BaseItemExporter)類。它沒有打開輸出文件,在構造函數中它已經打開了文件對象。所以在這個導出器類中,我無法檢查導出的文件是否已經存在。在Scrapy中如何檢查導出的文件是否已經存在?

回答

0

Scrapy覆蓋輸出文件是一個已知的公開問題。例如見:

我自己提出了修復與增加後綴重命名文件。但是實現不是向後兼容的。 您可能會發現這很有仍然:https://github.com/scrapy/scrapy/pull/2093

它改變了FileFeedStorage,但你可以實現類似的東西,並期待在this other answer使用這種自定義源存儲類。

相關問題