自動瀏覽的證據 - 日誌文件分析

我不太確定這是否適合發佈我的問題。我正在分析Apache和IIS日誌格式的Web服務器日誌。我想找到自動瀏覽的證據（例如網絡機器人，蜘蛛，機器人等）我使用python robot-detection 0.2.8來檢測我的日誌文件中的機器人。無論如何，可能有其他機器人（自動程序）已遍歷網站，但機器人檢測無法識別。自動瀏覽的證據 - 日誌文件分析

那麼在日誌文件中可以找到任何特定的線索（人類用戶不能執行，但軟件執行動作等）嗎？
他們是否遵循特定的導航模式？
我看到了一些favicon.ico的請求？這是否暗示它是自動瀏覽？

我發現this文章有一些有價值的觀點。

來源

2013-06-30 Nilani Algiriyage

關於如何識別機器人的文章有一些很好的信息。其他事情你可能會考慮。

如果您看到一個HTML頁面的請求，但未接到頁面使用的圖像或腳本文件的請求，那麼請求很可能來自抓取工具。如果你看到很多來自同一個IP地址的數據，那幾乎肯定是一個爬蟲。它可能是Lynx瀏覽器（僅限文本），但它更可能是一個爬蟲。
找到可以非常快地掃描整個網站的爬蟲很容易。但是一些爬蟲的速度會更慢，在頁面請求之間等待5分鐘或更長時間。如果您看到來自同一個IP地址的多個請求，隨着時間的推移而分散開來，但是定期發送，這可能是一個抓取工具。
在來自同一IP的日誌中重複403（未授權）條目。在放棄之前，人類很少會遇到少數403個錯誤。一個簡單的抓取工具會盲目地嘗試網站上的URL，即使它獲得了幾十個403。
從相同的IP地址重複404。再次，一個人會在一些404s之後放棄。一個爬蟲會盲目地推動...「我知道這裏有一個很好的網址，在這裏某處。」
不是主要瀏覽器的代理字符串之一的用戶代理字符串。如果用戶代理字符串看起來不像瀏覽器的用戶代理字符串，它可能是一個機器人。請注意，反過來是不正確的。許多機器人將用戶代理字符串設置爲已知的瀏覽器用戶代理字符串。

來源

2013-07-03 14:35:59

非常感謝！我正在分析一些日誌文件，我將發佈我發現的有趣模式:) –

自動瀏覽的證據 - 日誌文件分析

回答

相關問題