我想使用IcePDF
或PDFBox
從PDF中提取內容。但我現在沒有辦法繼續從提取的文本和圖像中生成HTML
網頁。使用IcePDF或PDFBox從PDF生成HTML頁面
回答
您可以使用PDFBox將PDF轉換爲html。嘗試this link。
通過在提取文本時添加-html作爲參數,您將獲得pdf的html。但它不會包含任何圖像,圖形和其他細節。它將只是以html格式從pdf中提取的文本。
如果您想創建pdf的精確外觀,PDFBox中沒有單一步驟方法。據我所知,沒有圖書館提供這個工具來創建pdf的確切html。但使用PDFBox,您可以提取圖像,文本及其細節。使用這些細節你必須創建一個邏輯來生成html。我們已經完成了一個將pdf轉換爲html的項目azzist.com。我們已經完成了使用PDFBox的轉換。在azzist中,我們將簡歷轉換爲html格式。 (還有一些字體問題在那裏)。
Scribd,Google,Dropbox,zoho等已經以更好的方式完成了此轉換。你可以看看這些網站,看看他們是如何完成這一點的。 (你不會得到邏輯,你必須找出它)。
鏈接不工作.. –
@ chinna_82我修復了鏈接。 (希望你沒等那麼久:-)) –
@TilmanHausherr謝謝。 :) –
- 1. pdf從xml或html生成
- 2. 使用abcpdf.net從aspx頁面生成PDF
- 3. 從頁面生成PDF
- 4. 從JSP頁面生成PDF?
- 5. 從ASPX頁面生成PDF
- 6. 使用pdfbox編輯pdf頁面
- 7. 使用PDFBox替換PDF頁面
- 8. 在angularjs中使用jspdf從html頁面生成PDF
- 9. 使用ASP.NET -C從HTML頁面生成PDF文檔#
- 10. 使用iText從多個HTML頁面生成PDF
- 11. 使用PDFBOX從PDF
- 12. PDFBox - 從圖像生成PDF的問題
- 13. 使用Python生成報告:將PDF或HTML生成爲PDF
- 14. pdfbox生成多頁
- 15. PDF格式轉換爲HTML頁面明智使用PDFBOX庫
- 16. 如何使用PDFBOX生成Dyanamic頁數
- 17. 使用TCPDF和PHP生成PDF頁面
- 18. 從XML或HTML生成PDF文件
- 19. 如何使用pdfbox生成可下載PDF(損壞的PDF)?
- 20. Java:使用PDFBox庫從圖像創建PDF頁面
- 21. Angular2 - 使用jspdf從HTML生成pdf
- 22. 無法使用wkhtmltopdf從HTML生成PDF
- 23. 使用Django和Reportlab從HTML生成PDF
- 24. 使用jspdf從html元素生成pdf
- 25. 使用SAME樣式從HTML生成PDF
- 26. 如何從.aspx生成PDF頁面
- 27. 生成HTML頁面
- 28. 如何從webapp2的html頁面生成pdf文件
- 29. 從Rails的HTML頁面生成PDF格式
- 30. 在共享主機上從HTML頁面生成PDF文件
你想從哪個輸入中提取什麼? – mkl
我需要將所有的PDF頁面轉換爲HTML網頁與所有數據(文本,圖像,網格..) – Tayba