0
我正在寫一個小型的實驗性應用程序,需要從多個網站上抓取數據。將網頁刮板僞裝成真實客戶端的技巧?
目前我在隨後的請求和使用多個用戶代理字符串之間添加了一個隨機延遲(2-20秒)。 還有什麼可以幫助網絡刮板逃避檢測?
例如,在設置referrer或x-forwarded-for標頭時是否有優勢。
我正在寫一個小型的實驗性應用程序,需要從多個網站上抓取數據。將網頁刮板僞裝成真實客戶端的技巧?
目前我在隨後的請求和使用多個用戶代理字符串之間添加了一個隨機延遲(2-20秒)。 還有什麼可以幫助網絡刮板逃避檢測?
例如,在設置referrer或x-forwarded-for標頭時是否有優勢。
也許使用tor並更改頻率以更新IP地址?
我曾考慮過將它分佈在多個IP上,但我不確定它的價值,我仍然可能會看到一些IP被禁止。 我曾經認爲,大型網站,會看到很多來自單個IP的地方使用NAT的請求。這是我真正想要模擬的行爲。 – johnflan 2013-05-05 22:54:08