2012-12-24 87 views
1

我想使用IcePDFPDFBox從PDF中提取內容。但我現在沒有辦法繼續從提取的文本和圖像中生成HTML網頁。使用IcePDF或PDFBox從PDF生成HTML頁面

+0

你想從哪個輸入中提取什麼? – mkl

+0

我需要將所有的PDF頁面轉換爲HTML網頁與所有數據(文本,圖像,網格..) – Tayba

回答

2

您可以使用PDFBox將PDF轉換爲html。嘗試this link

通過在提取文本時添加-html作爲參數,您將獲得pdf的html。但它不會包含任何圖像,圖形和其他細節。它將只是以html格式從pdf中提取的文本。

如果您想創建pdf的精確外觀,PDFBox中沒有單一步驟方法。據我所知,沒有圖書館提供這個工具來創建pdf的確切html。但使用PDFBox,您可以提取圖像,文本及其細節。使用這些細節你必須創建一個邏輯來生成html。我們已經完成了一個將pdf轉換爲html的項目azzist.com。我們已經完成了使用PDFBox的轉換。在azzist中,我們將簡歷轉換爲html格式。 (還有一些字體問題在那裏)。

Scribd,Google,Dropbox,zoho等已經以更好的方式完成了此轉換。你可以看看這些網站,看看他們是如何完成這一點的。 (你不會得到邏輯,你必須找出它)。

+0

鏈接不工作.. –

+0

@ chinna_82我修復了鏈接。 (希望你沒等那麼久:-)) –

+0

@TilmanHausherr謝謝。 :) –