整理從PDF中提取的圖像

我有一段代碼從PDF中收集圖像並使用pdfBox將它們保存在文件夾中。圖像是無用的，因爲我不知道他們的任何事情。 PDF包含部分標題，後面跟1-3張圖片。無論如何改變程序，以便它會告訴我他們來自哪個部分？整理從PDF中提取的圖像

下面是代碼：

public static void main(String[] args) throws IOException { 

     PDDocument document = null; 
     try { 
      document = PDDocument.load("C:\\Users\\564864\\Downloads\\wsh2012.pdf"); 
     } catch (IOException ex) { 
      System.out.println("" + ex); 
     } 
     List pages = document.getDocumentCatalog().getAllPages(); 
     Iterator iter = pages.iterator(); 
     int i =1; 
     String name = null; 

     while (iter.hasNext()) { 
      PDPage page = (PDPage) iter.next(); 
      PDResources resources = page.getResources(); 
      Map pageImages = resources.getImages(); 
      if (pageImages != null) { 
       Iterator imageIter = pageImages.keySet().iterator(); 
       while (imageIter.hasNext()) { 
        String key = (String) imageIter.next(); 
        PDXObjectImage image = (PDXObjectImage) pageImages.get(key); 
        image.write2file("C:\\Users\\564864\\Desktop\\Java\\helloworld\\images\\" + i+""); 
        i ++; 
       } 
      } 
     } 

    }

來源

2012-08-10 Mike

除非PDF包含額外的元數據，還有一個PDF中沒有的部分。我在http://www.jpedal.org/PDFblog/2012/06/extracting-structured-text-from-pdf-files/

上撰寫了關於結構化文本的文章（同樣適用於圖像）

來源

2012-08-11 07:57:52

整理從PDF中提取的圖像

回答

相關問題