2015-08-28 107 views
0

具體的數據我看到一些搜索網站如http://homes.mitula.ph/homes/makati,我不知道他們是如何抓取數據在其他網站如priceimagedescription並顯示給他們的網站。的Web爬行使用Solr的Nutch的

我正在考慮使用Solr來索引數據和Nutch來抓取它。我不熟悉網絡爬行和索引,到目前爲止,我只能抓取網頁的內容。

Can Solr Nutch能做這種爬行嗎?如何?

回答

1

沒有'SOLR Nutch'這樣的東西。他們是單獨的項目。

您可以在Nutch中編寫HTMLParseFilters並實現提取邏輯,然後配置索引篩選器以便將數據發送到SOLR。

順便說一句,你可能會發現StormCrawler更易於使用和擴展。它有一個ParseFilter implementation,它採用XPath表達式從網頁中提取信息。

當然,你也可以在Nutch的HTMLParseFilter中做同樣的事情,但它需要編寫一些代碼並將其放入自定義插件中。