網絡爬蟲 - 忽略Robots.txt文件？

某些服務器有一個robots.txt文件，以阻止網絡爬蟲爬過他們的網站。有沒有辦法讓網絡爬蟲忽略robots.txt文件？我正在使用Python的機械化。網絡爬蟲 - 忽略Robots.txt文件？

2011-12-05 Craig Locke

如果你這樣做，這可能是法律問題 –

請不要這樣做。 –

因爲這是一個合法的問題，所以下調這個結果是不好的。然而，這是一個壞主意。 –

的documentation對機械化有此示例代碼：

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False)

這不正是你想要什麼。

來源

2011-12-05 14:10:33

我建議在meta上再次提出[標記此問題]的問題（http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation）。對於如何處理涉嫌侵犯版權行爲似乎存在不同意見，並且確定的答案會有所幫助。 – NullUserException

@NullUser會做。我會盡量在一個地方收集我所有的相互矛盾的建議，看看我們是否能夠達成共同的觀點！ –

This看起來像你需要：

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False)

，但你知道你在做什麼？

來源

2011-12-05 14:09:31 eumiro

網絡爬蟲 - 忽略Robots.txt文件？

回答

相關問題