我將Nutch 2.3設置爲HBase作爲後端,並運行包含Solr和Solr重複數據刪除索引的爬網。你如何配置Apache Nutch 2.3以兌現機器人元標記?
我最近注意到Solr索引包含不需要的網頁。
爲了讓Nutch的忽略這些網頁我設置以下元標記:
<meta name="robots" content="noindex,follow">
我參觀了Apache的Nutch官方網站並說明如下:
如果你不這樣做有權在您的服務器上編輯/robots.txt文件,但您仍然可以讓機器人不要爲您的網頁建立索引或關注鏈接。該標準的機制是機器人META標籤
尋找答案的網站,我發現了一個建議設置Protocol.CHECK_ROBOTS
或設置protocol.plugin.check.robots
在Nutch的-site.xml中的屬性。這些似乎沒有工作。
在當前Nutch 2.3忽略noindex
規則,因此將內容索引到外部數據存儲即Solr。
問題是如何配置Nutch 2.3以兌現機器人元標記?
此外,如果Nutch 2.3之前被配置爲忽略機器人元標記,並且在之前的爬網週期中索引該網頁。爲機器人元標記提供規則是正確的,這是否會導致未來爬網中的Solr索引中的頁面被刪除?