Python - Beautifulsoup與PDF圖片（相對路徑）

我使用機械化瀏覽網站。在此之後，我使用beautifulsoup來操作網頁的內容（轉換爲unicode，刪除一些行）。現在我想從Beautifulsoup獲得的html源文件創建PDF文件。 Iuse pdfkit，它的文本工作正常。但現在我想創建PDF格式的圖片，這些圖片在html代碼中。通過使用相對路徑'../../'等來指定URL（也用於圖片）等。Python - Beautifulsoup與PDF圖片（相對路徑）

如何更改所有考慮絕對路徑的URL以及如何獲取pdf文件中的圖片？將獲得照片足夠的路徑的變化？

SOLUTION：（基於dudu1791提案）

#changement liens vers images 
def ChangeLinkIMG(soup,baseurl): 
    #parcours des images 
    for imgLK in soup.findAll('img'):  
     #chemin relatif image 
     try: 
      relaIMG=imgLK['src'] 
      #creation lien absolu 
      absoIMG=urljoin(baseurl,relaIMG) 
      imgLK['src']=absoIMG 
      print absoIMG 
     except: 
      pass 
    return soup

來源

2015-10-11 Guuk

它大概一半的答案，但下面的代碼可以幫助你打開網址爲考慮絕對路徑。這是我做到的。

def parse_all_links(self, soup):    
     for link in soup.find_all('a'):     
      if(link.get('href')): 
       href = link.get('href') 
       if href.startswith('http') or href.startswith('https'): 
        print(href)       
       elif href =='#': 
        #print('No link present') 
        pass 
       elif href =='/': 
        pass 
       else: 
        href = baseurl + href 
        print(href)

來源

2015-10-11 19:06:39 dudu1791

謝謝！我修改了處理圖片的提議。我在我的帖子中寫了我的功能。 – Guuk

Python - Beautifulsoup與PDF圖片（相對路徑）

回答

相關問題