某些服務器有一個robots.txt文件,以阻止網絡爬蟲爬過他們的網站。有沒有辦法讓網絡爬蟲忽略robots.txt文件?我正在使用Python的機械化。網絡爬蟲 - 忽略Robots.txt文件?
11
A
回答
26
的documentation對機械化有此示例代碼:
br = mechanize.Browser()
....
# Ignore robots.txt. Do not do this without thought and consideration.
br.set_handle_robots(False)
這不正是你想要什麼。
+0
我建議在meta上再次提出[標記此問題]的問題(http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation)。對於如何處理涉嫌侵犯版權行爲似乎存在不同意見,並且確定的答案會有所幫助。 – NullUserException
+0
@NullUser會做。我會盡量在一個地方收集我所有的相互矛盾的建議,看看我們是否能夠達成共同的觀點! –
8
This看起來像你需要:
from mechanize import Browser
br = Browser()
# Ignore robots.txt
br.set_handle_robots(False)
,但你知道你在做什麼?
相關問題
- 1. 如何忽略網絡爬蟲?
- 2. 如何忽略網絡爬蟲中的文件類型?
- 3. 讓PHP網絡爬蟲尊重任何網站的robots.txt文件
- 4. 網絡爬蟲
- 5. 網絡爬蟲文本雲
- 6. C++網絡爬蟲
- 7. PHP網絡爬蟲
- 8. Python網絡爬蟲
- 9. java網絡爬蟲
- 10. 網絡爬蟲類
- 11. 網絡爬蟲更新策略
- 12. 網絡爬蟲提取
- 13. 網絡爬蟲的功能
- 14. 網絡爬蟲從Android Market
- 15. 網絡爬蟲的Java
- 16. 網絡爬蟲,反饋?
- 17. 如何使不遵守我的robots.txt文件的網絡爬蟲崩潰?
- 18. 自動網絡爬蟲
- 19. 遞歸網絡爬蟲perl
- 20. 簡單的網絡爬蟲
- 21. Python中的網絡爬蟲
- 22. 需要網絡爬蟲
- 23. 硒與python網絡爬蟲
- 24. 網絡爬蟲應用
- 25. 網絡爬蟲不打印
- 26. 網絡爬蟲如何處理javascript
- 27. 網絡爬蟲文本格式
- 28. Cloudflare邊緣緩存忽略爬蟲
- 29. 針對windows的增量爬網支持的網絡爬蟲
- 30. 網絡爬蟲是否存儲Cookie?
如果你這樣做,這可能是法律問題 –
請不要這樣做。 –
因爲這是一個合法的問題,所以下調這個結果是不好的。然而,這是一個壞主意。 –