通過提供包含多個URL的文件來檢索網頁源代碼

-1

我想通過提供包含其URL的列表的文件來下載網頁源代碼。例如，我有一個具有以下網址通過提供包含多個URL的文件來檢索網頁源代碼

http://www.adobe.com/support/security/bulletins/apsb09-19.html 
http://www.adobe.com/support/security/bulletins/apsb09-20.html

文件我可以使用它，因爲urllib我想用Python模塊不是Unix命令（像wget）呢？

我想讀取這個文件，並將每個URL作爲urlopen或urlretrieve的輸入，誰能告訴我該怎麼做？

來源

2013-09-25 Naive

您是否遇到了特定問題？你有什麼嘗試？ – nofinator

'wget -i ' –

我不知道該怎麼做，沒有試過任何東西...... – Naive

試着儘可能最好地分解問題。你有一個文本文件，每一個URL都列在它自己的行上。您知道Python對逐行讀取有很大的支持，這要歸功於open()，您可能熟悉urllib或requests，具體取決於您的偏好。

因此，所有你需要做的是：

Open the file
Read line by line
使用行作爲一個URL字符串
使用發送到URL的請求urllib或requests
捕獲輸出，並對其進行解析/保存

大功告成！

來源

2013-09-25 15:12:02 TankorSmash

可以告訴我如何使用該行作爲URL字符串... ？ – Naive

@ Kummi_10你已經將這行代碼讀入Python中，然後你需要將該字符串變量傳遞給負責這個的urllib/requests方法。在'2.'中列出的答案中，您可以看到他如何讀取每行並將其稱爲'行'。如果你打電話給你的url，並執行'requests.get（url）'，你應該是一個很好的地方來解決其餘的問題。 – TankorSmash

非常感謝你............. :) – Naive

通過提供包含多個URL的文件來檢索網頁源代碼

回答

相關問題