回答
確保?你可以用robots.txt禮貌地問(但他們可以被忽略),你可以用CAPTCHA(但它們可以被擊敗並給普通用戶施加一個障礙)擋住障礙,並且你可以監視每個人的行爲訪客尋找殭屍模式(但機器人可以代理週期和速率限制)。
你可以在你的站點的根目錄,這將防止文明機器人從索引它放置robots.txt文件包含以下內容。阻止他們的唯一方法是使用Captcha等技術。
當然,最好使用專門的開發機器,在您的網站正在建設時無法從互聯網訪問。
使用robots.txt指示或允許/禁止機器人將您的網站編入索引。
請注意,爬行者可以忽略'robots.txt',正如David和Darin都提到的那樣。 – 2010-08-27 06:35:08
您還可以根據crawlers user agent拒絕訪問,當然這假設爬網程序使用的用戶代理與常規瀏覽器不同。
「壞」爬蟲總是可以僞造用戶代理,所以它也只是可以提供幫助的方法之一,但是mot禁止它們 – Laimoncijus 2010-08-27 06:52:24
- 1. 通過Python中的網絡抓取工具登錄到網站
- 2. 抓取具有身份驗證網站的抓取工具
- 3. 如何通過robots.txt讓HTTrack抓取工具遠離我的網站?
- 4. 抓取Google網站管理員工具
- 5. Node.js網絡抓取
- 6. 網絡抓取C#
- 7. 網絡抓取cnbc.com
- 8. Jsoup網絡抓取
- 9. 網絡抓取 - 網絡登錄問題
- 10. scrapy抓取網站
- 11. 如何從抓取工具獲取數據到我的網站?
- 12. 網頁抓取工具,支持在開始抓取前與目標網站進行交互
- 13. scraperjs:網絡抓取代碼不工作
- 14. 網站抓取問題網站
- 15. 搜索離線網站的工具
- 16. 網站抓取器每隔幾秒就抓取一次網站
- 17. 靈活的網頁抓取工具
- 18. 網絡抓取:全部href
- 19. 智能網絡抓取c#
- 20. 網絡抓取錯誤
- 21. 網絡抓取計劃
- 22. RUBY - 網絡抓取 - (OpenURI :: HTTPError)
- 23. 網絡抓取評估?
- 24. 網絡抓取登錄
- 25. 網絡抓取和robots.txt
- 26. 網絡抓取鏈接表
- 27. 優化網絡抓取
- 28. 如何從(javascript?)網站進行網絡抓取?
- 29. 網絡抓取密碼保護網站使用R
- 30. 用R和選擇器小工具進行網絡抓取
爲什麼?這是因爲你在開發中,而是在一個「活的」區域?或者你甚至想要這個活的網站? – detly 2010-08-27 06:35:02