2014-10-06 82 views

回答

0

如果您的網站是公開的,您的選擇是有限的。這裏有幾點建議:

  • 最明顯的是:密碼保護您的網站。這可能不是最實用的公共場所,但保證工作。
  • 爲您的網站定義robots.txt規則。爬行者沒有義務遵守這些規則,但友好的(希望他們大多數)通常會遵守robots.txt。
  • 如果這些機器人因爲他們對你的網站不夠好而感到不快(比如打得太快),還可以選擇檢測並阻止他們的IP。只有當他們不從一個不同的IP地址爬行時,這纔會起作用。
  • 希望網絡爬蟲機器人通過不同的HTTP請求User-Agent值正確識別您的網站。您可以阻止您的網頁尋找不需要的用戶代理。 robots.txt可以做到這一點,但在這裏我正在討論讓Web服務器檢測到它,而不是渲染頁面或返回錯誤。

你沒有說你爲什麼想阻止它們。答案可能會影響你採取的方法。例如,如果您想將敏感數據保存到選定的一組人羣中,那麼密碼保護可能是最好的方法,而不是試圖永遠追捕機器人。如果這是網站性能問題,請考慮爲您的網站設置更強大的主機。希望有一個或上述建議的組合能爲你做好這項工作。

+0

接聽2-3郵件回覆(由於回覆過長) – 2014-10-16 05:30:56

+0

方面的網站,它是根據一個應用程序,它也是我的大學項目, 首先我會跟您的建議開始, 1.我無法添加密碼,因爲我的應用程序不允許我提供密碼驗證。 2.關於robot.txt規則,只有一些好的爬蟲/機器人會遵守規則。壞機器人很容易否認這個規則。 3.網站也一直在使用漫遊器。 關於阻塞IP我想問一下當bot使用代理IP地址時會發生什麼,IP也會根據事實和分析在常規基礎上進行更改。 – 2014-10-16 05:58:30

+0

4.談論用戶代理我們可以在某種程度上依賴於用戶代理,但不能完全.IE探索允許我們在請求網頁時創建我們自己定義的用戶代理。 我的網絡應用程序是社交應用程序,它regulary張貼在社交媒體上的評論和頁面鏈接,然後我檢查社交媒體的推介流量,從那裏我得到機器人/履帶擊中我的應用程序,我想停下來。 影響頁面加載計數急劇增加。 根據這種情況,仍然有任何解決方案/邏輯你必須申請。 謝謝。 – 2014-10-16 05:59:06