2010-06-29 48 views
2

有很多方法可以假裝成爲一個人。那麼,看過去的最好方法是什麼?探測網絡爬蟲的最佳和最有效的方法

+0

配置您的Web服務器以包含Voight-Kampff響應標頭 – paintcan 2010-06-29 19:12:08

+1

請參閱http://stackoverflow.com/questions/233192/detecting-stealth-web-crawlers – Rob 2010-06-29 19:15:49

回答

0

最有效的方法是Captha,但可以使您的網站不太友好。因此,最好的方法是分析你的交通程序,只要你的代碼檢測到一些不尋常的東西,只要求用戶在嚴格的時間線上回答captha。

只要理解基本的基礎。沒有人寫一個爬蟲來閱讀一個頁面或文章。有些人想要這一切,有些人希望速度快,而有些則希望經常。有些甚至可能來自不同的知識產權,但他們以相同的時間間隔打相同的風格。爬蟲和人類之間最大的區別在於爬蟲是什麼時候擊中,人類是懶惰的紀律。爬行者的效率足以讓許多命中在一起,人類不是,等等。任何聽起來好像流量日誌中的模式都是爬行器。