2009-04-08 64 views

回答

3

良好的蜘蛛

  • 讀取的robots.txt
  • 有一個正確的用戶代理
  • 將查詢的速度比平均用戶

但一個明確的檢測,如果它是一個瀏覽器或蜘蛛是不可能的,我想。

1

您可以使用常用機器人使用的用戶代理字符串列表。您可以使用某種形式的費率檢測,並確定非常高的請求率可能是一個蜘蛛(或有人榨取您的整個網站)。

也可能有常用機器人使用的IP地址列表,但防呆檢測系統最可能不可能。

您可以在您的網頁上創建一個真實訪問者永遠不會點擊的鏈接,並標記任何確實遵循該鏈接爲蜘蛛的人。無論如何,你會得到一些人點擊鏈接,但好奇心無法避免。

1

如果蜘蛛很好,可以通過它的用戶代理使用現有用戶代理列表(如this)來檢測它。但一個漂亮的網頁通常也會遵循robots.txt約定

忽略robots.txt文件並欺騙其用戶代理的機器人很可能也使用其他方法隱藏它們是蜘蛛。