如何使用PHP檢測爬蟲/蜘蛛?如何使用PHP檢測爬蟲/蜘蛛?
我目前工作的一個項目,我需要跟蹤每個履帶式的訪問。
我知道你應該使用HTTP_USER_AGENT,但我真的不知道如何格式化代碼,爲此,我知道,用戶代理可以改變很容易使我也想知道是否有可能增加一些更多的參數,以避免欺騙?什麼,我試圖做
示例代碼..
<?php
$user_agent = $_SERVER['HTTP_USER_AGENT'];
if (strpos($user_agent, 'Google') !== false)
{
echo "Googlebot is here";
}
?>
謝謝
您可以輕鬆地找到爬蟲當您檢查Web服務器日誌文件,並期待從一個單一的IP或子網在很短的時間很多要求。 大多數搜索引擎不修改他們的履帶表現得像他們是一個瀏覽器 –
,既然你可以在HTTP_USER_AGENT與REMOTE_ADDR結合起來,比如是不是真的,Googlebot的抓取總是使用主機名googlebot.com。但我如何設置一個腳本,我不知道。問候丹尼斯 – Squeeze
如果你不想讓你網頁抓取,請的robots.txt的 http://de.wikipedia.org/wiki/Robots_Exclusion_Standard 至少一些履帶尊重的robots.txt –