4
我想禁用robots.txt檢查Nutch並從網站抓取所有內容。 Disable
表示在獲取或解析任何網站之前,跳過檢查robot.txt。 這可能嗎?禁用robots.txt檢查nutch
我想禁用robots.txt檢查Nutch並從網站抓取所有內容。 Disable
表示在獲取或解析任何網站之前,跳過檢查robot.txt。 這可能嗎?禁用robots.txt檢查nutch
據我瞭解,我們無法禁用nutch中的robots.txt。
你**真的不應該**做到這一點。它看起來像項目在_Apache許可證版本2.0_下作爲源代碼發佈,所以你可以編輯'RobotRules'或'RobotRulesParser'中的行來將每個URL都視爲「允許」。如果您在此進行任何更改,則應該向用戶代理添加一些內容以反映它不是該軟件的正常版本。 – 2013-02-15 14:54:37
我正在尋找一種方法來禁用使用配置不改變代碼。 – 2013-02-15 14:56:27
在此[鏈接](http://lucene.472066.n3.nabble.com/Ignoring-Robots-txt-td619276.html)中有類似問題的討論。我希望這會對你有所幫助。 – 2013-02-15 15:06:14