0
我想在網站上下載一個doc文件扔python spider。我有文件url,這意味着當我登錄後在瀏覽器中輸入url時,文件會自動下載。如果我沒有登錄,它將返回一個404錯誤。我只知道urllib.urlretrieve(url, 'path/filename')
可以下載,但我不知道如何使用urlretrieve模擬到登錄狀態。還是有其他方法可以下載嗎?請幫助我,謝謝。如何使用python蜘蛛下載doc文件
我想在網站上下載一個doc文件扔python spider。我有文件url,這意味着當我登錄後在瀏覽器中輸入url時,文件會自動下載。如果我沒有登錄,它將返回一個404錯誤。我只知道urllib.urlretrieve(url, 'path/filename')
可以下載,但我不知道如何使用urlretrieve模擬到登錄狀態。還是有其他方法可以下載嗎?請幫助我,謝謝。如何使用python蜘蛛下載doc文件
也許你可以試試grab
框架(別人能做到的話,這只是一個例子),可以很容易地填寫輸入並提交:
from grab import Grab
import logging
logging.basicConfig(level=logging.DEBUG)
g = Grab()
g.go('https://github.com/login')
g.set_input('login', '***')
g.set_input('password', '***')
g.submit()
,那麼你可以下載你的DOC文件。
嘗試使用簡單解決方案的請求: http://stackoverflow.com/a/17633072/4131059 使用requests.Session進行會話,然後您可以發佈請求。 –
@AlexanderHuszagh我會試試,非常感謝 – thiiiiiking