2011-05-31 58 views
1

你好,我想作一個Python函數保存的URL列表中的.txt文件蟒蛇保存txt文件的URL列表

舉例:參觀http://forum.domain.com/和保存所有viewtopic.php?t=字URL中的.txt文件

http://forum.domain.com/viewtopic.php?t=1333 
http://forum.domain.com/viewtopic.php?t=2333 

我使用這個功能,但不救 我在蟒蛇很新的有人可以幫助我建立這個

web_obj = opener.open('http://forum.domain.com/') 
data = web_obj.read() 

fl_url_list = open('urllist.txt', 'r') 
url_arr = fl_url_list.readlines() 
fl_url_list.close() 

回答

4

這遠遠TR ivial並能有不少的情況(我想你是指頁面是一個網頁)

給你一些指點,你需要:

  • 下載網頁:你已經在做它(在data
  • 提取網址:這很難,最有可能的是,你會想要一個html解析器,提取<a>標籤,獲取href屬性,並將其放入一個列表。然後過濾該列表,只有像你喜歡的格式(與viewtopic說)。假設你已經把它寫入了urlList
  • 然後打開一個寫文本文件(因此wt,而不是r)。
  • 寫的內容f.write('\n'.join(urlList))
  • 關閉文件

我建議嘗試按以下步驟操作,並詢問相關問題,你被困在一個特定的問題時。