2013-06-30 19 views
0

我不太確定這是否適合發佈我的問題。我正在分析Apache和IIS日誌格式的Web服務器日誌。我想找到自動瀏覽的證據(例如網絡機器人,蜘蛛,機器人等)我使用python robot-detection 0.2.8來檢測我的日誌文件中的機器人。無論如何,可能有其他機器人(自動程序)已遍歷網站,但機器人檢測無法識別。自動瀏覽的證據 - 日誌文件分析

  1. 那麼在日誌文件中可以找到任何特定的線索(人類用戶不能執行,但軟件執行動作等)嗎?
  2. 他們是否遵循特定的導航模式?
  3. 我看到了一些favicon.ico的請求?這是否暗示它是自動瀏覽?

我發現this文章有一些有價值的觀點。

回答

1

關於如何識別機器人的文章有一些很好的信息。其他事情你可能會考慮。

  • 如果您看到一個HTML頁面的請求,但未接到頁面使用的圖像或腳本文件的請求,那麼請求很可能來自抓取工具。如果你看到很多來自同一個IP地址的數據,那幾乎肯定是一個爬蟲。它可能是Lynx瀏覽器(僅限文本),但它更可能是一個爬蟲。
  • 找到可以非常快地掃描整個網站的爬蟲很容易。但是一些爬蟲的速度會更慢,在頁面請求之間等待5分鐘或更長時間。如果您看到來自同一個IP地址的多個請求,隨着時間的推移而分散開來,但是定期發送,這可能是一個抓取工具。
  • 在來自同一IP的日誌中重複403(未授權)條目。在放棄之前,人類很少會遇到少數403個錯誤。一個簡單的抓取工具會盲目地嘗試網站上的URL,即使它獲得了幾十個403。
  • 從相同的IP地址重複404。再次,一個人會在一些404s之後放棄。一個爬蟲會盲目地推動...「我知道這裏有一個很好的網址,在這裏某處。」
  • 不是主要瀏覽器的代理字符串之一的用戶代理字符串。如果用戶代理字符串看起來不像瀏覽器的用戶代理字符串,它可能是一個機器人。請注意,反過來是不正確的。許多機器人將用戶代理字符串設置爲已知的瀏覽器用戶代理字符串。
+0

非常感謝!我正在分析一些日誌文件,我將發佈我發現的有趣模式:) –