1
想想看,我有3個環節A
,B
,C
:Scrapy:副刮掉從不同的鏈接數據,1項/型號
A
和B
是網頁鏈接和C
是它需要一個文件的鏈接被下載。
我刮刀curently做到這一點:
- 從
A
頁:提取元數據,提取鏈接到頁面B
- 從
B
頁:提取下載鏈接C
- 從
C
:下載/保存文件
注1:我用3個不同的Rule
s到提取A
鏈接,B
鏈接和C
鏈接
的問題 的問題是,我不知道如何將項目與關聯(元數據從A
頁)從鏈接C
下載的文件。
目前的項目在Rule
爲A
鏈接和文件的解析回調方法創建保存在回調方法爲C
鏈接
的項目和/或模型,(我使用SQLAlchemy用於存儲在數據庫中,使用管道)需要包含元數據+下載文件的名稱。
有沒有人有關於的想法如何將元數據與下載文件的名稱關聯?
注2:我使用的規則系統,因爲它可以用新的規則很容易地擴展和規則,可以在其他蜘蛛被重用。
http://doc.scrapy.org/en/latest/topics/request-response.html#scrapy.http.Request.meta – Girish