0
A
回答
0
如果您的網站是公開的,您的選擇是有限的。這裏有幾點建議:
- 最明顯的是:密碼保護您的網站。這可能不是最實用的公共場所,但保證工作。
- 爲您的網站定義robots.txt規則。爬行者沒有義務遵守這些規則,但友好的(希望他們大多數)通常會遵守robots.txt。
- 如果這些機器人因爲他們對你的網站不夠好而感到不快(比如打得太快),還可以選擇檢測並阻止他們的IP。只有當他們不從一個不同的IP地址爬行時,這纔會起作用。
- 希望網絡爬蟲機器人通過不同的HTTP請求User-Agent值正確識別您的網站。您可以阻止您的網頁尋找不需要的用戶代理。 robots.txt可以做到這一點,但在這裏我正在討論讓Web服務器檢測到它,而不是渲染頁面或返回錯誤。
你沒有說你爲什麼想阻止它們。答案可能會影響你採取的方法。例如,如果您想將敏感數據保存到選定的一組人羣中,那麼密碼保護可能是最好的方法,而不是試圖永遠追捕機器人。如果這是網站性能問題,請考慮爲您的網站設置更強大的主機。希望有一個或上述建議的組合能爲你做好這項工作。
相關問題
- 1. 訪問通過網絡爬蟲存儲的.lck和jdb文件
- 2. 網絡爬蟲
- 3. 如何阻止爬蟲不能訪問我的網站?
- 4. C++網絡爬蟲
- 5. PHP網絡爬蟲
- 6. Python網絡爬蟲
- 7. java網絡爬蟲
- 8. 網絡爬蟲類
- 9. Appengine Apps VS谷歌機器人網絡爬蟲
- 10. 網絡爬蟲HTTP錯誤403:禁止
- 11. 通過ipv4網絡訪問ipv6網站
- 12. 自動網絡爬蟲
- 13. 網絡爬蟲的功能
- 14. 網絡爬蟲,反饋?
- 15. 網絡爬蟲的Java
- 16. 遞歸網絡爬蟲perl
- 17. 簡單的網絡爬蟲
- 18. Python中的網絡爬蟲
- 19. 需要網絡爬蟲
- 20. 網絡爬蟲文本雲
- 21. 硒與python網絡爬蟲
- 22. 網絡爬蟲從Android Market
- 23. 網絡爬蟲應用
- 24. 網絡爬蟲不打印
- 25. 網絡爬蟲提取
- 26. python網站爬蟲(多個網站)
- 27. 網絡爬蟲如何處理javascript
- 28. 如何配置網絡爬蟲?
- 29. 如何使網絡爬蟲更有效?
- 30. 如何識別網絡爬蟲?
接聽2-3郵件回覆(由於回覆過長) – 2014-10-16 05:30:56
方面的網站,它是根據一個應用程序,它也是我的大學項目, 首先我會跟您的建議開始, 1.我無法添加密碼,因爲我的應用程序不允許我提供密碼驗證。 2.關於robot.txt規則,只有一些好的爬蟲/機器人會遵守規則。壞機器人很容易否認這個規則。 3.網站也一直在使用漫遊器。 關於阻塞IP我想問一下當bot使用代理IP地址時會發生什麼,IP也會根據事實和分析在常規基礎上進行更改。 – 2014-10-16 05:58:30
4.談論用戶代理我們可以在某種程度上依賴於用戶代理,但不能完全.IE探索允許我們在請求網頁時創建我們自己定義的用戶代理。 我的網絡應用程序是社交應用程序,它regulary張貼在社交媒體上的評論和頁面鏈接,然後我檢查社交媒體的推介流量,從那裏我得到機器人/履帶擊中我的應用程序,我想停下來。 影響頁面加載計數急劇增加。 根據這種情況,仍然有任何解決方案/邏輯你必須申請。 謝謝。 – 2014-10-16 05:59:06