2016-12-16 68 views
0

蜘蛛將抓取某個B2B網站上的信息,並且我希望它成爲一個web服務器,其中用戶獲取一個url然後蜘蛛開始抓取。美國參數作爲scrapy項目中的集合名稱

該網址看起來像:apple.b2bxxx.com,這是一個B2B網站上的小型網站,其中列出了所有產品。 「蘋果」可能會有所不同,因爲不同的公司使用不同的名稱,因此微不足道,不允許複製。

在後端,它是MongoDB存儲被刮取的數據。

我所做的是,我可以收集給定url的信息,但所有數據都存儲在相同的db.collection中。

我知道我可以使用「-a」參數來運行scrapy,但我應該如何使用它? 我應該改變pipelines.py還是蜘蛛python文件?

有什麼建議嗎?

回答

0

我已經得到了答案。例如:

例如: 使用-s collection_name = abc獲取scrapy抓取命令,然後使用param = settings.get('collection_name')獲取pipelines.py中的參數。

這也可以在stackoverflow中找到,但不記得哪張票。

希望這可以幫助一些人面臨同樣的問題。

相關問題