當在一個循環中刮多個網站,我注意到存在之間的速度相當大的差異,Python網絡刮:睡眠和請求之間的差異(頁面,超時= X)
sleep(10)
response = requests.get(url)
和,
response = requests.get(url, timeout=10)
也就是說,timeout
要快得多。
此外,對於這兩種設置,我希望在請求下一頁之前每頁至少10秒的刮取時間,但事實並非如此。
- 爲什麼速度有這樣的差異?
- 爲什麼每頁的抓取時間少於10秒?
我現在使用多處理,但我認爲要記住上述保留以及非多處理。