如何使用pdfbox提取文本內容的字體樣式？

我正在使用pdfbox庫從pdf文件中提取文本內容。我將能夠提取所有文本，但無法找到提取字體樣式的方法。如何使用pdfbox提取文本內容的字體樣式？

2011-08-04 Master Stroke

幫我找到字體信息 - http://stackoverflow.com/questions/21705961/get-font-of-each -line-using-pdfbox – EvilInside

這是不正確的方式來提取字體。要閱讀的字體一個具有通過PDF頁面和下面摘錄的字體迭代：

PDDocument doc = PDDocument.load("C:/mydoc3.pdf"); 
List<PDPage> pages = doc.getDocumentCatalog().getAllPages(); 
for(PDPage page:pages){ 
    Map<String,PDFont> pageFonts=page.getResources().getFonts(); 
}

來源

2012-03-02 18:12:11 Harpreet

import org.apache.pdfbox.pdmodel.PDDocument; 
import org.apache.pdfbox.util.PDFTextStripper; 
public class pdf2box { 
    public static void main(String args[]) 
    { 
     try 
     { 
    PDDocument pddDocument=PDDocument.load("table2.pdf"); 
    PDFTextStripper textStripper=new PDFTextStripper(); 
    System.out.println(textStripper.getText(pddDocument)); 
    textStripper.getFonts(); 



    pddDocument.close(); 
     } 
     catch(Exception ex) 
     { 
     ex.printStackTrace(); 
     } 
    } 


}

來源

2011-08-11 06:00:40

這給了我一個空的地圖，而Harpreet的答案給了我預期的輸出 – bcoughlan

PDFTextStripper在pdfBox 2.04中沒有'getFonts（）'方法。 –

如何使用pdfbox提取文本內容的字體樣式？

回答

相關問題