是否存在處理數據存檔和存儲的數據抓取框架？

我做了很多網絡抓取，並且對於每個項目，我發現自己正在重寫一種框架/後端，它涉及將原始頁面/文件保存到名稱空間目錄中，有時甚至是數據庫以跟蹤日期，錯誤消息等是否存在處理數據存檔和存儲的數據抓取框架？

我想知道是否有這樣的框架已經爲此類任務而構建。我並不是指實際的抓取任務本身，它是使用Nokogiri/Mechanize /等HTML解析器的組合，但是用於管理刮板和他們收集的數據。對於我所做的一些任務，數據收集有幾個階段。

例如：

因此，任何系統，可以幫助我跟蹤刮泥機何時開始，他們如何做，以及他們在哪裏保存原始數據是偉大的。我想用MongoDB編寫我自己的東西，但我確信有人比我做得更好。

2012-08-11 Zando

請注意，數據挖掘是分析，而不是數據收集。 – 2012-08-12 14:58:50

Nutch將其數據存儲在Solr中，如果有幫助... – 2012-08-14 18:48:42

我知道irobotsoft刮刀解決了所有這些問題。它有很多功能來清理html頁面和存儲數據，內置的排序和數據庫操作內置在一個簡單的用戶界面中。

此外，它是免費的。

2012-08-21 20:09:00 seagulf

回答