即將建立我自己的搜索引擎。Nutch是關於什麼的?
在搜索關於搜索引擎,爬蟲等時,我對Nutch感到困惑。
我不明白什麼是Nutch。是像Lucene這樣的內部使用(糾正我,如果我錯了)或創建搜索引擎的框架(例如:谷歌,BING,雅虎)?
即將建立我自己的搜索引擎。Nutch是關於什麼的?
在搜索關於搜索引擎,爬蟲等時,我對Nutch感到困惑。
我不明白什麼是Nutch。是像Lucene這樣的內部使用(糾正我,如果我錯了)或創建搜索引擎的框架(例如:谷歌,BING,雅虎)?
Nutch是一個全功能的搜索引擎 - 它可以抓取外部網站,它理解和尊重robots.txt。
http://nutch.apache.org/about.html
概述Nutch的是開源的 網絡搜索軟件。它建立在 Lucene和Solr的,加入網絡的細節,諸如履帶,鏈路圖表 數據庫,HTML和其他 文件格式等解析器
Nutch的可以在一臺機器上運行,但 增益很多其從 在Hadoop集羣
該系統能夠提高運行強度的使用 插件機制(例如其他 文檔格式可以解析)。
有關Nutch的更多信息,請參閱Nutch wiki。
Nutch是一個現成的,可配置的網頁爬蟲與Java Servlet執行搜索。如果你想將其作爲一個項目來完成,Nutch可能做得太多了,因爲剩下的工作就是創建用於輸入搜索和顯示結果的頁面。