2013-10-04 33 views
0

我需要做一個網絡爬取請求,並儘可能快速完成響應Python爬行 - 請求更快

我來自Java語言。我使用了兩個「框架」,但都沒有完全滿足我的意圖。

Jsoup請求/響應快,但穿不完整的數據,當頁面有很多的信息。 Apache HttpClient與此相反,數據可靠但速度很慢。

我查看了一些Python模塊,並正在測試Scrapy。在我的搜索中,我無法斷定它是否是最快的並且使數據始終爲,或者還有其他更好,甚至更詳細或更困難的數據。

其次,Python是好語言爲此目的?

預先感謝您。

回答

5

Scrapy的+1票。在過去的幾個星期裏,我一直在撰寫大規模汽車論壇的抓取工具,Scrapy絕對令人難以置信,快速且可靠。

+0

謝謝@Tommy,幫我看看你的意見。 – raul

0

尋找「做請求並快速完成響應」是沒有意義的。

答:任何HTTP庫都將爲您提供服務器響應的完整標頭/正文。

B. Web請求發生的「快速」通常取決於您的網絡連接和服務器的響應時間,而不是您正在使用的客戶端。

所以有了這些要求,什麼都行。

查看requests包。這是一個優秀的Python客戶端庫。

+0

感謝您的回覆。要切實可行:事實是,圖書館比另一個要快得多。它可能在其內部實施中優先考慮數據一致性,而不是提供快速回報。 我需要知道的是,如果有一個平衡好的話。 我對你的鏈接感興趣,可以重新發布它嗎? – raul

+0

可能http://docs.python-requests.org – furas

+0

即使這不是,我喜歡這個鏈接。我現在正在閱讀,謝謝@furas – raul