我正在嘗試編寫一個爬取程序,它將採用特定的搜索條目並保存與結果相關的大量.CSV文件。Python網站爬蟲,使用Scrapy保存文件
我已經有蜘蛛登錄,解析所有我需要的html數據,現在我只剩下要做的就是弄清楚如何保存我需要的文件。
因此搜索將返回鏈接,如本 https://www.thissite.com/data/file_download.jsp?filetype=1&id=22944
,然後在Web瀏覽器會提示您保存相關的.csv文件。我如何寫我的蜘蛛來加載這個頁面並下載文件?或者有什麼方法可以捕捉到信息的靜態鏈接?
看看URL返回的是什麼,它可能是一個重定向。 – tripleee
看起來不是重定向。 – howdoicrawlweb