3
我有一個使用Python的Scrapy的爬蟲/蜘蛛,我想使用Amazon Web服務安排每日爬行。使用亞馬遜網絡服務自動計劃Scrapy爬蟲
我想要做的是,每天都說01:00 UTC。我想要創建一個ec2實例並啓動Scrapy蜘蛛並運行抓取,並且完成後我希望ec2實例被終止。
我不希望ec2實例遺留下來並且運行並增加額外的成本/費用,因爲將來我會添加更多的蜘蛛,並且可能導致十幾個被動實例每天20小時無所事事。
我發現一對夫婦的帖子談論使用Scrapy與EC2的:
- http://seminar.io/2013/03/26/running-scrapy-on-amazon-ec2/
- http://bgrva.github.io/blog/2014/04/13/deploy-crawler-to-ec2-with-scrapyd/
- http://www.dataisbeautiful.io/installing-scrapy-and-scrapyd-on-amazon-ec2/
但他們都似乎需要您推出該腳本每次您想要安排抓取時,請從您的本地計算機上下載。它似乎不會自動完成。我希望我的腳本每年365天運行10年以上,而且我不想每晚睡覺前都做這個腳本。
有人可以描述這是如何使用亞馬遜網絡服務完成的嗎?