2015-10-11 39 views
1

我使用機械化瀏覽網站。在此之後,我使用beautifulsoup來操作網頁的內容(轉換爲unicode,刪除一些行)。現在我想從Beautifulsoup獲得的html源文件創建PDF文件。 Iuse pdfkit,它的文本工作正常。但現在我想創建PDF格式的圖片,這些圖片在html代碼中。通過使用相對路徑'../../'等來指定URL(也用於圖片)等。Python - Beautifulsoup與PDF圖片(相對路徑)

如何更改所有考慮絕對路徑的URL以及如何獲取pdf文件中的圖片?將獲得照片足夠的路徑的變化?

SOLUTION:(基於dudu1791提案)

#changement liens vers images 
def ChangeLinkIMG(soup,baseurl): 
    #parcours des images 
    for imgLK in soup.findAll('img'):  
     #chemin relatif image 
     try: 
      relaIMG=imgLK['src'] 
      #creation lien absolu 
      absoIMG=urljoin(baseurl,relaIMG) 
      imgLK['src']=absoIMG 
      print absoIMG 
     except: 
      pass 
    return soup 

回答

2

它大概一半的答案,但下面的代碼可以幫助你打開網址爲考慮絕對路徑。這是我做到的。

def parse_all_links(self, soup):    
     for link in soup.find_all('a'):     
      if(link.get('href')): 
       href = link.get('href') 
       if href.startswith('http') or href.startswith('https'): 
        print(href)       
       elif href =='#': 
        #print('No link present') 
        pass 
       elif href =='/': 
        pass 
       else: 
        href = baseurl + href 
        print(href) 
+0

謝謝!我修改了處理圖片的提議。我在我的帖子中寫了我的功能。 – Guuk