2011-05-10 17 views
2

我需要將PDF文件轉換爲HTML文件(IOS平臺),以便我可以使用Javascript註釋HTML頁面。我在註釋HTML頁面方面取得了一些成功,所以如果我可以將PDF轉換爲HTML,我可以完成我的任務。我怎麼做轉換?我們可以使用C,C++或Java(任何語言)將PDF文件轉換爲HTML嗎?

+2

請重新說明問題並更具體。你在開發什麼平臺?你使用哪種語言?詢問之前你有沒有尋找類似的問題? – marzapower 2011-05-10 13:59:23

+2

http://www.google.com/search?q=pdf+to+html – 2011-05-10 21:31:19

回答

10

從PDF轉換通常非常困難(最好)。

PDF包含繪圖說明。 「從這裏到那裏」,「在這些座標處的這些字符」。有通常沒有關於這些行,字符和圖像的邏輯意義的信息,雖然「文檔結構」變得越來越普遍。

如果沒有「文檔結構」和「標記的內容」,很難從「一堆行和字符」轉到「在這些列和行中具有此信息的表格」。

不是不可能的,只是很難。

而那些在這個問題上工作過的人並不都對分享他們的代碼感興趣。

+0

http://bisqwit.iki.fi/source/pdf2simplehtml.html - >這裏有一些源代碼將PDF轉換爲html。只有簡單的文本將被轉換爲HTML。 – 2011-05-12 06:46:10

+1

而且這段代碼附帶了一堆免責聲明(和coupd使用我想象的更多)。我支持我的評估。 – 2011-05-14 06:39:04

+0

感謝您的評論... – 2011-05-16 09:29:02

1

這將是很難轉換任何pdf,其中一些太複雜的HTML。

看看libpoppler它已經有pdf2html函數,它是開源的,你可以隨時擴展它,所以它符合你的要求。

+0

你可以給我鏈接到libpoppler。 – 2011-05-12 09:18:37

+0

我可以在我的IOS程序中集成libpoppler代碼嗎?我在我的iMac中下載了該代碼。但我很笨,如何在我的項目中使用它:( – 2011-05-12 10:25:34

+0

試着編譯它並看看'pdftohtml.cc'。我不知道,如果你可以在你的程序中集成poppler,那麼它是在GPL下。 – p4553d 2011-05-12 13:46:05

相關問題