誰能告訴我,如果有任何方式的Apache Nutch的忽略或繞過的robots.txt而爬行的robots.txt繞過。我正在使用nutch 2.2.1。我發現, 「RobotRulesParser.java」(全路徑:-src /插件/ LIB-HTTP/SRC/JAVA /組織/阿帕奇/的nutch /協議/ HTTP/API/ RobotRulesParser.java)負責的讀取和解析robots.txt的。有沒有辦法修改這個文件來忽略robots.txt並繼續爬行?如何與Apache Nutch的2.2.1
或者是有任何其他方式來達到同樣的?
傢伙,我只是想知道這對我自己的知識。我完全尊重robots.txt,但是好奇心不大。畢竟,我是一名編碼員。 –
堆棧溢出問題是公開可用的,並且在Google搜索結果中具有很高的特徵。所以在實踐中它不會是「僅僅爲了你自己的知識」,而是要了解每個人的知識。在這種情況下,這將是一件**糟糕的事情**。 – JonK
@JonK我會在這種情況下刪除這篇文章。但是我認爲您已經知道人們已經在使用旨在忽略robots.txt的網頁抓取工具。當我說我不打算做這些事情時,請相信我,否則我可以簡單地使用其中一個爬蟲。我只是想更好地理解nutch。 –