Q

識別搜索爬蟲

2015-10-21 47 views 1 likes

1

我有一個網站，其中有多少人訪問過特定網頁，但我不想計算搜索爬蟲訪問它們的時間。有什麼辦法用java來確定它是一個爬蟲還是一個真正的用戶？使用Java7和Tomcat識別搜索爬蟲

感謝

2015-10-21 Fernando Penteado

+0

是的，可以使用cms來做到這一點，所以我建議查看用戶在請求頁面時提供的數據。他們應該發送他們的瀏覽器信息，並且可以使用它來跟蹤用戶與機器人。 – JFA

+2

檢查傳入請求的'User-Agent'標頭。 – Henry

A

回答

1

正如亨利所說，你必須檢查每個請求的User-Agent頭。

您可以使用此蜘蛛列表：http://www.useragentstring.com/pages/Crawlerlist/

另外，你可以檢查模式是否含有「機器人」，「履帶式」等也請注意，有些機器人可以用通常的用戶用戶屏蔽本身代理字符串。

此檢查必須非常快速，因此您需要爲抓取工具名稱創建緩存。或者你可以使用谷歌分析，我認爲這不算網絡爬蟲。

2015-12-21 14:14:39

相關問題