2010-03-25 98 views
1

是否有任何類,COM對象,命令行實用程序或其他任何可以將PDF轉換爲HTML文檔的API?很明顯,轉換可能有點粗糙,因爲PDF可以包含比HTML更多的內容。我發現了一個叫pdftohtml在Source Forge的效用,但老實說它確實可怕工作與轉換。我不在乎該軟件是免費還是商業軟件,但是有什麼可以與我自己的軟件合併來進行這種轉換的嗎?我知道Google開發了自己的方法,因爲您可以通過Gmail在附加到電子郵件的PDF上單擊「以HTML格式查看」,但我希望公衆可以獲得某些內容。如何以PDF格式將PDF轉換爲HTML?

請記住,PDF轉換爲HTML。我是不是擔心HTML到PDF。

+1

請說明你的編程語言。 – 2010-03-25 22:21:32

+0

最好是PHP;但是,如果有什麼東西可以在ASP,Java,Python,Ruby等中使用,那麼我就使用它。另外,我可以讓PHP使用shell命令來執行命令行exe或使用COM對象。我不是那麼挑剔,只要它在Windows上工作,它應該沒問題。 – SoaperGEM 2010-03-26 20:30:33

回答

0

以及一個解決方案,我能想到的是編寫的小程序,使用讀取庫調用iText的PDF文本,然後生成html文件。

+0

雖然我希望能夠很好地處理轉換。即使用顏色,基本格式和圖像。 – SoaperGEM 2010-03-26 20:31:40

0

以及基於Java的解決方案PDF ......我們沒有一個乾淨的方式,我想,還是..所有的解決方案是原始的,善良的解決方法......對於 1.沒有簡單的解決方法設計一個PDF 的模板2.然後在運行時使用Java,數據填充到這個模板...或者使用XML或其它數據源...

這樣一個簡單的要求,沒有一個是好「的開源和免費的」解決辦法呢!

的Eclipse BIRT接近..但不處理條形碼元素..OOB。

0

您正在尋找pdf2htmlEX(C++),它轉換PDF到HTML不失文字或格式。

爲了進一步轉化爲語義HTML,你可以用我的項目Transcript(Python)的處理pdf2htmlEX輸出。然而,它不再是無損的,並且對於不偏離傳統視覺佈局的文檔來說效果最好。