2015-10-21 47 views
1

我有一個網站,其中有多少人訪問過特定網頁,但我不想計算搜索爬蟲訪問它們的時間。有什麼辦法用java來確定它是一個爬蟲還是一個真正的用戶? 使用Java7和Tomcat識別搜索爬蟲

感謝

+0

是的,可以使用cms來做到這一點,所以我建議查看用戶在請求頁面時提供的數據。他們應該發送他們的瀏覽器信息,並且可以使用它來跟蹤用戶與機器人。 – JFA

+2

檢查傳入請求的'User-Agent'標頭。 – Henry

回答

1

正如亨利所說,你必須檢查每個請求的User-Agent頭。

您可以使用此蜘蛛列表:http://www.useragentstring.com/pages/Crawlerlist/

另外,你可以檢查模式是否含有「機器人」,「履帶式」等也請注意,有些機器人可以用通常的用戶用戶屏蔽本身代理字符串。

此檢查必須非常快速,因此您需要爲抓取工具名稱創建緩存。或者你可以使用谷歌分析,我認爲這不算網絡爬蟲。