我正在使用pdfbox庫從pdf文件中提取文本內容。我將能夠提取所有文本,但無法找到提取字體樣式的方法。如何使用pdfbox提取文本內容的字體樣式?
4
A
回答
14
這是不正確的方式來提取字體。要閱讀的字體一個具有通過PDF頁面和下面摘錄的字體迭代:
PDDocument doc = PDDocument.load("C:/mydoc3.pdf");
List<PDPage> pages = doc.getDocumentCatalog().getAllPages();
for(PDPage page:pages){
Map<String,PDFont> pageFonts=page.getResources().getFonts();
}
0
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
public class pdf2box {
public static void main(String args[])
{
try
{
PDDocument pddDocument=PDDocument.load("table2.pdf");
PDFTextStripper textStripper=new PDFTextStripper();
System.out.println(textStripper.getText(pddDocument));
textStripper.getFonts();
pddDocument.close();
}
catch(Exception ex)
{
ex.printStackTrace();
}
}
}
+2
這給了我一個空的地圖,而Harpreet的答案給了我預期的輸出 – bcoughlan
+0
PDFTextStripper在pdfBox 2.04中沒有'getFonts()'方法。 –
相關問題
- 1. 如何使用pdfbox從pdf中提取粗體文本?
- 2. 如何使用pdfbox獲取PDF表單文本字段的內容?
- 3. 使用Apache PDFBox提取出錯文字的文本?
- 4. 如何使用Apache PDFBox從PDF文件中提取文本
- 5. Pdfbox文本提取異常
- 6. 使用pdfbox獲取pdf文本的字體屬性
- 7. 如何使用PDFBox將文本提取到JLabel
- 8. 使用PDFBox獲取每行的字體
- 9. 不同的提示字體樣式和鍵入的文本字體樣式android
- 10. iText PDF字體和樣式的文本提取
- 11. 用粗體/斜體信息PDFBox的文本提取不上的一些文件
- 12. 如何提取PDF格式的文本內容
- 13. PDFBox - 獲取內容高度
- 14. 如何在Android中使用pdfbox顯示PDF文檔的內容
- 15. 如何使用Perl從SGML DTD中提取文本內容?
- 16. 如何從word文檔中提取使用特定樣式格式的文本?
- 17. 如何使用javascript從文本區域提取文本的樣式,包括值?
- 18. 使用pdfbox從PDF文件中提取文本
- 19. 使用PDFBox提取沒有頁眉和頁腳的文本
- 20. 如何使用PS腳本從psd文件獲取字體樣式
- 21. 使用PDFBox,FontBox等解析PDF到文本的字體問題
- 22. 如何使用pdfbox獲取字體大小
- 23. 如何使用pdfbox獲取字體顏色
- 24. 使用pdfbox - 如何從COSName獲取字體?
- 25. 從單元格中提取文本內容(使用粗體,斜體等)
- 26. 如何使用PHP DOM獲取頁面樣式表的內容?
- 27. 如何提取內容的字體大小
- 28. 使用PDFBox獲取文本顏色
- 29. 使用PDFBox 2.0從PDF中提取文本
- 30. 使用Apache PdfBox在兩個書籤之間提取文本
幫我找到字體信息 - http://stackoverflow.com/questions/21705961/get-font-of-each -line-using-pdfbox – EvilInside