2017-02-26 57 views
0

請幫我清理一下我的頭:Scrapy部署算法

我想爲我的項目在EC2上設置爬網。我使用Scrapy和MySQL結果。另外,我想爲預定的抓取實現cron(例如每天);所以我的理解是:我用所有必需的軟件包(python,mysql,scrapy等)設置EC2;然後我創造我的蜘蛛,我測試它們;當他們工作的時候,我設置了cron來抓取沒有我的抓取。

我是對的還是我可能會錯過什麼?我需要使用Scrapyd還是隻是一個選項?

回答

0

您需要一個能夠爲您運行Scrapy的程序。您可以使用scrapy命令或編寫自己的腳本,也可以使用scrapyd。我個人喜歡scrayd,因爲它使事情變得更簡單(包括一個不錯的API)。

+0

好吧,所以我實際上需要使用Scrapyd,如果我想將它設置爲在沒有我的情況下運行? – yurashark

+0

基本上,我只是做我解釋我要做的事情,但是在測試我的蜘蛛後,我使用Scrapyd運行我的蜘蛛,然後使用cron自動化Scrapyd?我還沒有看到Scrapyd在其文檔中提供了自動爬網(例如每小時),還是我在那裏丟失了某些東西? – yurashark

+0

實際上你不需要使用scrapyd。你可以安排'scrapy crawl '。但是,可以幫助其他功能,如API和Web監控。如果您選擇了scrapyd,則需要使用API​​開始爬網(可能使用'curl')。 – masnun