2013-09-25 40 views
-1

我想通過提供包含其URL的列表的文件來下載網頁源代碼。 例如,我有一個具有以下網址通過提供包含多個URL的文件來檢索網頁源代碼

http://www.adobe.com/support/security/bulletins/apsb09-19.html 
http://www.adobe.com/support/security/bulletins/apsb09-20.html                         

文件我可以使用它,因爲urllib我想用Python模塊不是Unix命令(像wget)呢?

我想讀取這個文件,並將每個URL作爲urlopen或urlretrieve的輸入,誰能告訴我該怎麼做?

+0

您是否遇到了特定問題?你有什麼嘗試? – nofinator

+0

'wget -i ' –

+0

我不知道該怎麼做,沒有試過任何東西...... – Naive

回答

1

試着儘可能最好地分解問題。你有一個文本文件,每一個URL都列在它自己的行上。您知道Python對逐行讀取有很大的支持,這要歸功於open(),您可能熟悉urllibrequests,具體取決於您的偏好。

因此,所有你需要做的是:

  1. Open the file

  2. Read line by line

  3. 使用行作爲一個URL字符串

  4. 使用發送到URL的請求urllibrequests

  5. 捕獲輸出,並對其進行解析/保存

大功告成!

+0

可以告訴我如何使用該行作爲URL字符串... ? – Naive

+0

@ Kummi_10你已經將這行代碼讀入Python中,然後你需要將該字符串變量傳遞給負責這個的urllib/requests方法。在'2.'中列出的答案中,您可以看到他如何讀取每行並將其稱爲'行'。如果你打電話給你的url,並執行'requests.get(url)',你應該是一個很好的地方來解決其餘的問題。 – TankorSmash

+0

非常感謝你............. :) – Naive

相關問題