0
使用python請求模塊(獲取函數)我在抓取鏈接即爬蟲。我使用腳本發出多個請求。由於我提出的請求太多,Google干預了CAPTCHA,並在一段時間後重置。我使用時間模塊在每次請求後將代碼放入睡眠狀態一段時間以避免它。我想知道什麼時候才能讓腳本進入睡眠狀態,以便Google不會將其視爲無效流量? (我使用的是大學的代理服務器)在Python中請求之間的時間?
使用python請求模塊(獲取函數)我在抓取鏈接即爬蟲。我使用腳本發出多個請求。由於我提出的請求太多,Google干預了CAPTCHA,並在一段時間後重置。我使用時間模塊在每次請求後將代碼放入睡眠狀態一段時間以避免它。我想知道什麼時候才能讓腳本進入睡眠狀態,以便Google不會將其視爲無效流量? (我使用的是大學的代理服務器)在Python中請求之間的時間?
Google使用多個參數來確定異常流量。他們顯然沒有分享這些參數,但我不認爲請求延遲是最重要的。用戶代理,JS,referer如何?如果你沒有碰到這些,它會尖叫「我是一個機器人」。 – leovp