你如何配置Apache Nutch 2.3以兌現機器人元標記？

我將Nutch 2.3設置爲HBase作爲後端，並運行包含Solr和Solr重複數據刪除索引的爬網。你如何配置Apache Nutch 2.3以兌現機器人元標記？

我最近注意到Solr索引包含不需要的網頁。

爲了讓Nutch的忽略這些網頁我設置以下元標記：

<meta name="robots" content="noindex,follow">

我參觀了Apache的Nutch官方網站並說明如下：

如果你不這樣做有權在您的服務器上編輯/robots.txt文件，但您仍然可以讓機器人不要爲您的網頁建立索引或關注鏈接。該標準的機制是機器人META標籤

尋找答案的網站，我發現了一個建議設置Protocol.CHECK_ROBOTS或設置protocol.plugin.check.robots在Nutch的-site.xml中的屬性。這些似乎沒有工作。

在當前Nutch 2.3忽略noindex規則，因此將內容索引到外部數據存儲即Solr。

問題是如何配置Nutch 2.3以兌現機器人元標記？

此外，如果Nutch 2.3之前被配置爲忽略機器人元標記，並且在之前的爬網週期中索引該網頁。爲機器人元標記提供規則是正確的，這是否會導致未來爬網中的Solr索引中的頁面被刪除？

我創建了一個插件來解決Apache Nutch 2.3不遵守機器人元標記規則noindex的問題。 metarobots插件迫使Nutch在索引期間丟棄符合條件的文檔。這可以防止合格文件索引到您的外部數據存儲庫即Solr。

請注意：此插件可防止包含機器人元標記規則noindex的文檔的索引，它不會刪除以前索引到您的外部數據存儲的任何文檔。

2016-02-10 12:08:38 saintybalboa

回答