2016-06-10 81 views
-1

我目前正在使用python請求下載大約20,000頁的json。由於我正在抓取服務器的速率限制,我正陷入瓶頸,也許缺少異步調用/調度。我認爲scrapy會是一個很好的解決方案,因爲我聽說它具有解決與刮擦相關的問題的功能。事情是,那些是我需要的唯一部分,我不需要spidering/parsing/orm /等。看看這些文檔,我不清楚如何分離出這些組件。我需要一個微服務來處理scrapy所做的這些部分。該酒瓶Scrapy的Django。我看到grequests可能會幫助異步,但如果我走這條路線,我仍然需要限速和重試失敗的請求。有人能指引我朝着正確的方向嗎?Scrapy節流和請求調度只有微服務

回答

-1

如果你需要的是幫助你限制速度,我建議使用代理輪換服務,如果你已經準備好了爬蟲程序,Scrapy將不是必須的。我會推薦Crawleraproxymesh

+0

這是一個有趣的方法。 Tor會幫助解決這個問題,或者開銷太多/速度太慢,無法加快速度。 – sajattack

+0

Tor也是另一種方法,我不能說我試過了。 – eLRuLL

+0

Tor可以提供幫助,但是您需要一些其他庫,例如Stem用於從Python代碼控制Tor,並且必須在應當更改Tor標識(代理)時何時引發一些邏輯。 –