我需要一個開放源代碼的網絡爬蟲,在java中開發,增加了爬網支持。針對windows的增量爬網支持的網絡爬蟲
網絡爬蟲應該很容易定製並與solr或elasticsearch集成。
它應該是一個積極的,正在進一步發展與更多的功能。
Aperture是一個很好的抓取工具之一,它具有我提到的所有特性,但它不是一個活動抓取工具,並且由於許可證(如果我用它用於商業用途)我忽略了它們的依賴關係。
Nutch - 一個具有更多hadoop支持功能的網絡爬蟲。但是我經歷了很多網站和教程,沒有合適的文檔,找到了在Windows中以編程方式定製它的api。我可以在eclipse中編輯代碼,但在運行地圖縮減作業時會導致很多錯誤。對於nutch來說,沒有像Java那樣的Java API。
Crawl4j是一個很好的網絡爬蟲,但它沒有增量爬行功能,我沒有檢查許可問題。
有哪些有我提到的或有沒有辦法用我的要求,上述履帶中的任何一個所有功能的任何其他履帶?
有用的答案將不勝感激。
非常感謝@Pascal Essiebre – Kumar 2014-10-13 04:41:41