apache nutch不抓取網站

我已經安裝了apache nutch進行網絡抓取。我想抓取一個網站，有以下robots.txt：apache nutch不抓取網站

User-Agent: * 
Disallow:/

有什麼辦法抓取本網站使用Apache Nutch的？

來源

2012-08-07 Amir

我將如何在nutch-site.xml中設置Protocol.CHECK_ROBOTS false – jackyesind 2013-07-08 09:24:24

在Nutch的-site.xml中，設置protocol.plugin.check.robots假

您可以註釋掉在機器人檢查完成的代碼。在Fetcher.java中，第605-614行正在進行檢查。評論整個塊

 if (!rules.isAllowed(fit.u)) { 
     // unblock 
     fetchQueues.finishFetchItem(fit, true); 
     if (LOG.isDebugEnabled()) { 
      LOG.debug("Denied by robots.txt: " + fit.url); 
     } 
     output(fit.url, fit.datum, null, ProtocolStatus.STATUS_ROBOTS_DENIED, CrawlDatum.STATUS_FETCH_GONE); 
     reporter.incrCounter("FetcherStatus", "robots_denied", 1); 
     continue; 
     }

來源

2012-08-19 06:14:31

如何設置Protocol.CHECK_ROBOTS false在nutch-site.xml – muthu 2013-05-27 13:17:43

您可以在nutch-site.xml中將屬性「Protocol.CHECK_ROBOTS」設置爲false以忽略robots.txt。

來源

2012-08-07 09:31:16 prilia

我怎麼能做到這一點？（設置Protocol.CHECK_ROBOTS「false） – Amir 2012-08-11 07:27:47

它是好的解決方案nutch 2.2.1？ – 2014-06-04 12:01:41

apache nutch不抓取網站

回答

相關問題