我正在寫一個需要load_url
函數執行對我下面的蜘蛛:有沒有比urlgrabber更好的庫來獲取Python中的遠程URL?
- 重試該URL,如果有錯誤是暫時性的,沒有泄漏例外。
- 不會泄露內存或文件句柄
- 使用HTTP-保持活動的速度(可選)
URLGrabber表面上看起來不錯,但它有麻煩。第一個問題是打開了太多的文件,但是我可以通過關閉keep-alive來解決此問題。然後,該功能開始提出socket.error: [Errno 104] Connection reset by peer
。該錯誤應該被捕獲,並且可能會引發URLGrabberError。
我正在運行python 2.6.4。
有誰知道用URLGrabber修復這些問題的方法,或者知道另一種方法來完成我需要的不同庫嗎?
BeautifulSoup ftw? – Kimvais 2010-01-11 08:32:00
BeautifulSoup非常棒,但它用於解析HTML。我需要有關HTTP傳輸功能的幫助。類似於'urllib2.urlopen',但具有所描述的功能。 – Gattster 2010-01-11 08:33:55