0
我做了很多網絡抓取,並且對於每個項目,我發現自己正在重寫一種框架/後端,它涉及將原始頁面/文件保存到名稱空間目錄中,有時甚至是數據庫以跟蹤日期,錯誤消息等是否存在處理數據存檔和存儲的數據抓取框架?
我想知道是否有這樣的框架已經爲此類任務而構建。我並不是指實際的抓取任務本身,它是使用Nokogiri/Mechanize /等HTML解析器的組合,但是用於管理刮板和他們收集的數據。對於我所做的一些任務,數據收集有幾個階段。
例如:
- 迭代通過網站,下載
- 原始頁面解析存儲的原始頁面,提取數據
- 清潔數據(這可以涉及到可能是不可能的其他外部進程在階段2)
因此,任何系統,可以幫助我跟蹤刮泥機何時開始,他們如何做,以及他們在哪裏保存原始數據是偉大的。我想用MongoDB編寫我自己的東西,但我確信有人比我做得更好。
請注意,數據挖掘是分析,而不是數據收集。 – 2012-08-12 14:58:50
Nutch將其數據存儲在Solr中,如果有幫助... – 2012-08-14 18:48:42