2011-12-05 34 views
11

某些服務器有一個robots.txt文件,以阻止網絡爬蟲爬過他們的網站。有沒有辦法讓網絡爬蟲忽略robots.txt文件?我正在使用Python的機械化。網絡爬蟲 - 忽略Robots.txt文件?

+3

如果你這樣做,這可能是法律問題 –

+3

請不要這樣做。 –

+8

因爲這是一個合法的問題,所以下調這個結果是不好的。然而,這是一個壞主意。 –

回答

26

documentation對機械化有此示例代碼:

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False) 

這不正是你想要什麼。

+0

我建議在meta上再次提出[標記此問題]的問題(http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation)。對於如何處理涉嫌侵犯版權行爲似乎存在不同意見,並且確定的答案會有所幫助。 – NullUserException

+0

@NullUser會做。我會盡量在一個地方收集我所有的相互矛盾的建議,看看我們是否能夠達成共同的觀點! –

8

This看起來像你需要:

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False) 

,但你知道你在做什麼?