我遇到了需要抓取和抓取Scrapy的Scrapy。但根據應用需求,我決定不採用單片方式。一切都應該基於服務。所以我決定設計兩項服務。Scrapy:從HTML中刪除項目而不是從URL
- 獲取所有網址和html。在s3上傳。
- html的廢料項目
爲什麼?很簡單,今天我決定取消10件物品,明天我要取消20件(應用要求)。在這種情況下,我不想再次抓取url和html,因爲html會相同(我只抓取只添加評論的博客站點,而且每個url的內容保持不變)。
第一項服務將基於Scrapy。我一直在尋找是否可以使用相同的方法來進行搜索,如果我們可以提供html而不是start url,或者我們必須使用BeatifulSoap或其他一些拼寫庫。
如果您的HTML源存儲在S3上,你仍然可以使用scrapy下載它們和異步抓取的:) – Granitosaurus