我們正在努力爲訪問我們網站的自動化請求的數量獲得更好的指標。我們的網站提供大量數據,但也提供網頁。很容易區分服務的數據文件提供的網頁,但一些數據文件服務是通過網頁手動請求生成的。自動請求通常使用curl或wget等程序直接獲取數據。檢測自動化網頁請求
我們目前的做法是定期查看用戶代理字符串並根據用戶代理(例如wget)作出判斷,這是一個自動請求。問題是新代理商一直在增加,所以我們落後於曲線。而且,其中一些以自動方式檢索數據的方式通過使用用戶代理字符串來僞造數據,當用戶代理字符串不是時,它們聲稱它們是瀏覽器。
我想到,如果基於Apache日誌條目,我們可以確定「Javascript已啓用」,那麼人類發送請求。這並不完美,但它會比現在更好,更便攜。如果我們檢測到它已關閉,我們可以將其視爲自動請求。
是這樣的可能嗎?有沒有足夠的代碼或庫可以爲我們做這項工作,並且定期維護?
謝謝。將通讀它。 – Mark