2013-09-27 77 views
0

我在Clojure中創建了一個應用程序,我正在使用它的抓取工具來抓取特定站點。跟蹤訪問的URL - itsy crawler

現在我想知道是否有可能在一段時間內運行它的爬蟲程序,然後停止整個應用程序,但是當我再次啓動應用程序以跳過已經訪問過的網址時?

回答

1

從查看源代碼,itsy未提供用於保存爬行程序當前狀態的內置機制。但是,抓取工具的當前狀態可通過crawl函數的結果訪問,其密鑰爲:state

您可以序列化原子隊列中:seen-urls隊列中的值和退出應用程序時的隊列中的值,然後在您再次啓動時對其進行反序列化。看起來你需要在運行crawl函數後添加保存的值,以確保所有內容都已正確初始化。