如何使用python蜘蛛下載doc文件

我想在網站上下載一個doc文件扔python spider。我有文件url，這意味着當我登錄後在瀏覽器中輸入url時，文件會自動下載。如果我沒有登錄，它將返回一個404錯誤。我只知道urllib.urlretrieve(url, 'path/filename')可以下載，但我不知道如何使用urlretrieve模擬到登錄狀態。還是有其他方法可以下載嗎？請幫助我，謝謝。如何使用python蜘蛛下載doc文件

來源

2015-12-07 thiiiiiking

嘗試使用簡單解決方案的請求： http://stackoverflow.com/a/17633072/4131059 使用requests.Session進行會話，然後您可以發佈請求。 –

@AlexanderHuszagh我會試試，非常感謝 – thiiiiiking

也許你可以試試grab框架（別人能做到的話，這只是一個例子），可以很容易地填寫輸入並提交：

from grab import Grab 
import logging 

logging.basicConfig(level=logging.DEBUG) 
g = Grab() 
g.go('https://github.com/login') 
g.set_input('login', '***') 
g.set_input('password', '***') 
g.submit()

，那麼你可以下載你的DOC文件。

來源

2015-12-07 02:46:46 Sinux

如何使用python蜘蛛下載doc文件

回答

相關問題