如何使用Python將網頁元素解析爲記事本？

-1

任何人都可以幫助我從網站上使用Python「提取」東西嗎？這裏是信息：我有文件夾名稱與一組數字（他們是項目的ID），我必須使用該ID進入頁面，然後從頁面「廢」信息到我的記事本...這就像這樣：http ：//www.somesite.com/pic.mhtml？id = [ID] ...我需要從圖片鏈接中提取圖片鏈接（圖片鏈接總是在文件末尾有ID.jpg）並將其寫入記事本中然後用該圖片的名稱替換該txt名稱...圖片始終在標題標籤...在此先感謝...如何使用Python將網頁元素解析爲記事本？

來源

2013-04-27 Sigurica

您需要的是一個數據刮板 - http://www.crummy.com/software/BeautifulSoup/將幫助您將數據從網站拉出。然後，您可以將該數據加載到變量中，將其寫入文件，或者執行通常對數據執行的任何操作。

來源

2013-04-27 18:22:49 baordog

你可以嘗試解析圖像的html源代碼。嘗試類似的東西：

class Parser(object): 
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)' 

def __crawl(self, url): 
    images = [] 
    code = urllib.urlopen(url).read() 
    for line in code.split('\n'): 
     imagesearch = re.search(self.__rx, line) 
     if imagesearch: 
      image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4)) 
      images.append(image) 
    return images

它untestet，你可能要檢查的正則表達式

來源

2013-04-27 19:46:49 spky

如何使用Python將網頁元素解析爲記事本？

回答

相關問題