2008-12-11 78 views
6

開源實現將是首選。有沒有任何Java庫將文檔從PDF轉換爲HTML?

+3

我想知道一個解決方案了。 PDFBox的是能夠做到這一點(http://java.dzone.com/articles/converting-pdf-html-using?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+javalobby%2Ffrontpage+%28Javalobby+%2F+Java+Zone%29 ),但方式非常有限。 – Alp 2011-05-02 11:15:21

回答

2

顯然,這不是一件容易的事,PDF格式比HTML的一個更豐富(加上你必須提取圖像和鏈接它們,等)。
簡單的文本提取更簡單(儘管不是微不足道的...)。
我看到你的問題類似的問題的側邊欄:Converting PDF to HTML with Python指向庫(poppler的,這顯然是用C++編寫,或許可以用JNI/JNA訪問)和一個相關的問題能夠提供更多的答案。

相關問題