2014-09-22 112 views
1
  • 我需要一個開放源代碼的網絡爬蟲,在java中開發,增加了爬網支持。針對windows的增量爬網支持的網絡爬蟲

  • 網絡爬蟲應該很容易定製並與solr或elasticsearch集成。

  • 它應該是一個積極的,正在進一步發展與更多的功能。

  • Aperture是一個很好的抓取工具之一,它具有我提到的所有特性,但它不是一個活動抓取工具,並且由於許可證(如果我用它用於商業用途)我忽略了它們的依賴關係。

  • Nutch - 一個具有更多hadoop支持功能的網絡爬蟲。但是我經歷了很多網站和教程,沒有合適的文檔,找到了在Windows中以編程方式定製它的api。我可以在eclipse中編輯代碼,但在運行地圖縮減作業時會導致很多錯誤。對於nutch來說,沒有像Java那樣的Java API。

  • Crawl4j是一個很好的網絡爬蟲,但它沒有增量爬行功能,我沒有檢查許可問題。

有哪些有我提到的或有沒有辦法用我的要求,上述履帶中的任何一個所有功能的任何其他履帶?

有用的答案將不勝感激。

回答

0

看起來像Norconex HTTP Collector絕配:

  • 它是用Java編寫的100%。
  • 它在Windows上完全運行(不需要Cygwin或Linux/Unix VM)。
  • 它有很好的記錄與例子和論壇問問題/提出問題(github)。
  • 它支持增量爬行,檢測修改後的文檔以及刪除的文檔。
  • 它支持Solr和Elasticsearch等等(通過使用它的「提交者」)。
  • 它是廣泛配置/靈活。很容易與它集成併爲其提供自定義功能,而無需學習複雜的插件機制(實現一個接口,將其放入classpath中,並且可以)。
  • 其發展非常活躍。

它由企業搜索專業人士公司Norconex維護。問題很快解決。版本2.0.0正在大量工作,不久將帶來許多新功能(語言檢測,文檔分割等)。

這是GPL,但如果GPL對您來說是一個問題,Norconex會提供商業許可。

它還有許多其他功能,您沒有列出,如在將文檔內容發送到您的搜索引擎之前操縱文檔內容的能力。它還支持站點地圖,機器人規則等。我邀請您試試看:http://www.norconex.com/product/collector-http/

+0

非常感謝@Pascal Essiebre – Kumar 2014-10-13 04:41:41