2011-08-19 73 views
1

我知道這裏已經提出了一些類似的問題,但我看到了所有這些問題,但沒有人仍然滿足我。如何將PDF轉換爲HTML?

嗯,我試過xpdf和pdftohtml都很好,但是舊的和PDF的新版本似乎不起作用。

我的問題是找到一種方法,允許我將任何PDF或DOC轉換爲HTML,並保持樣式和結構。如果有人有東西,甚至支付完美。

+0

無法記住,如果這有支持保存爲pdf,但我認爲它應該有。 http://www.techsmith.com/snagit/我可以肯定的是,它可以讓你截取整個網站的截圖並以各種圖像格式保存。至於保留文本如文字去..我不完全確定。 – Joonas

+0

@洛萊羅,這不是我正在尋找的東西,或者我誤解了一些東西。 – yvan

+0

我可以看到.._ now_。我很抱歉,我沒有正確閱讀(一般)我不知道這兩個保存的東西有多好,但你可以使用保存在網絡上的Photoshop ..你可以添加鏈接等切片工具,並保存爲HTML文件..這將保持外觀100%,但它基本上只是一個圖像..我wouldnt建議,如果你想你的輸出是大尺寸。另外,如果你有多個頁面..手動處理PDF文件不是很快。 – Joonas

回答

1

那麼,我嘗試了一些專門用於Linux的庫,但這裏是我的中間結論。

PDFtoHTML太舊,考慮不採取一切新的PDF規格,例如PDF 1.7(主要是因爲它使用的xpdf 2.02,而Xpdf是已經在他的第3版)

相反PDFTOHTML我發現Poppler繼續PDFtoHTML開發,加上一些非常有用的新的utils。實際上,在開放源代碼Poppler中,使我的複雜PDF變得更好。 Here一個幾乎相等我必須使用。

最後,這是我要使用的。 ImageMagick + Poppler。我會將我的PDF轉換爲圖像,並使用PDFtoHTML Poppler的XML輸出在我的圖像上添加一個新圖層。

+0

其實,我已經檢查過了,PDFtoHTML基於xpdf 3: pdftohtml版本0.36 http://pdftohtml.sourceforge.net/,基於Xpdf版本3.00 版權所有1999-2003 Gueorgui Ovtcharov和Rainer Dorsch Copyright 1996- 2004 Glyph&Cog,LLC –

+0

您是否嘗試過'pdftohtml -c file.pdf file.htm'? –

1

像你一樣,我一直在尋找從PDF到HTML或更好的XHTML的自動轉換工具。那麼,這只是雙方,但畢竟http://www.pdfonline.com(在線PDF到HTML)爲我做了最好的工作。它甚至能夠過濾並正確顯示錶格和段落,而不僅僅是短語!

這還不夠我的工作,所以我手動生成了一個模板文件。