2013-04-27 23 views
-1

任何人都可以幫助我從網站上使用Python「提取」東西嗎?這裏是信息: 我有文件夾名稱與一組數字(他們是項目的ID),我必須使用該ID進入頁面,然後從頁面「廢」信息到我的記事本...這就像這樣:http ://www.somesite.com/pic.mhtml?id = [ID] ...我需要從圖片鏈接中提取圖片鏈接(圖片鏈接總是在文件末尾有ID.jpg)並將其寫入記事本中然後用該圖片的名稱替換該txt名稱...圖片始終在標題標籤...在此先感謝...如何使用Python將網頁元素解析爲記事本?

回答

0

你可以嘗試解析圖像的html源代碼。 嘗試類似的東西:

class Parser(object): 
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)' 

def __crawl(self, url): 
    images = [] 
    code = urllib.urlopen(url).read() 
    for line in code.split('\n'): 
     imagesearch = re.search(self.__rx, line) 
     if imagesearch: 
      image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4)) 
      images.append(image) 
    return images 

它untestet,你可能要檢查的正則表達式