2015-12-07 46 views
0

我想在網站上下載一個doc文件扔python spider。我有文件url,這意味着當我登錄後在瀏覽器中輸入url時,文件會自動下載。如果我沒有登錄,它將返回一個404錯誤。我只知道urllib.urlretrieve(url, 'path/filename')可以下載,但我不知道如何使用urlretrieve模擬到登錄狀態。還是有其他方法可以下載嗎?請幫助我,謝謝。如何使用python蜘蛛下載doc文件

+0

嘗試使用簡單解決方案的請求: http://stackoverflow.com/a/17633072/4131059 使用requests.Session進行會話,然後您可以發佈請求。 –

+0

@AlexanderHuszagh我會試試,非常感謝 – thiiiiiking

回答

0

也許你可以試試grab框架(別人能做到的話,這只是一個例子),可以很容易地填寫輸入並提交:

from grab import Grab 
import logging 

logging.basicConfig(level=logging.DEBUG) 
g = Grab() 
g.go('https://github.com/login') 
g.set_input('login', '***') 
g.set_input('password', '***') 
g.submit() 

,那麼你可以下載你的DOC文件。