如何從使用Python的網站刮取文本

我使用'requests'和'beautifulSoup'api在python中編寫了一段代碼，以便從前100個網站中刮取文本數據，並由google返回。那麼它的工作原理好於大多數的網站，但它給將在稍後或不響應這些錯誤在所有響應我收到此錯誤如何從使用Python的網站刮取文本

提高MaxRetryError（_pool，URL，錯誤或ResponseError（原因）） requests.packages.urllib3.exceptions.MaxRetryError：HTTPConnectionPool（host ='www.lfpress.com'，port = 80）：最大重試次數超過url：/ 2015/11/06/fair-with-a-flare-samosas （由於NewConnectionError（'：無法建立新連接：[Errno 11001] getaddrinfo失敗'））

我應該更改寫入請求API的代碼嗎？或者我需要使用一些代理？我怎樣才能離開那個網站並繼續下一個網站？由於錯誤正在阻止我的執行。

來源

2016-01-02 Muhammad Zeeshan

嘗試：除了..：通過？ –

非常感謝兄弟（： –

添加一個「嘗試，除了」在你電話塊捕獲該異常並繼續，如果你不關心像錯誤：

import requests 
try: 
    requests.get('http://stackoverflow.com/') 
except requests.packages.urllib3.exceptions.MaxRetryError as e: 
    print repr(e)

來源

2016-01-02 22:17:16 jayme

）非常感謝，我該如何避免requests.packages.urllib3.exceptions中存在的所有異常？不僅僅是MaxRetryError？ –

@MuhammadZeeshan這就是所謂的被動錯誤處理，只使用'except'而沒有指定 –

要展開^，你可以寫除了例外作爲e：smth smth e – Untitled123

如何從使用Python的網站刮取文本

回答

相關問題