2016-02-05 24 views
1

我將Nutch 2.3設置爲HBase作爲後端,並運行包含Solr和Solr重複數據刪除索引的爬網。你如何配置Apache Nutch 2.3以兌現機器人元標記?

我最近注意到Solr索引包含不需要的網頁。

爲了讓Nutch的忽略這些網頁我設置以下元標記:

<meta name="robots" content="noindex,follow"> 

我參觀了Apache的Nutch官方網站並說明如下:

如果你不這樣做有權在您的服務器上編輯/robots.txt文件,但您仍然可以讓機器人不要爲您的網頁建立索引或關注鏈接。該標準的機制是機器人META標籤

尋找答案的網站,我發現了一個建議設置Protocol.CHECK_ROBOTS或設置protocol.plugin.check.robots在Nutch的-site.xml中的屬性。這些似乎沒有工作。

在當前Nutch 2.3忽略noindex規則,因此將內容索引到外部數據存儲即Solr。

問題是如何配置Nutch 2.3以兌現機器人元標記?

此外,如果Nutch 2.3之前被配置爲忽略機器人元標記,並且在之前的爬網週期中索引該網頁。爲機器人元標記提供規則是正確的,這是否會導致未來爬網中的Solr索引中的頁面被刪除?

回答

1

我創建了一個插件來解決Apache Nutch 2.3不遵守機器人元標記規則noindex的問題。 metarobots插件迫使Nutch在索引期間丟棄符合條件的文檔。這可以防止合格文件索引到您的外部數據存儲庫即Solr。

請注意:此插件可防止包含機器人元標記規則noindex的文檔的索引,它不會刪除以前索引到您的外部數據存儲的任何文檔。

Visit this link for instructions