2011-05-13 84 views
9

我運行一個求職網站,我需要將doc,docx和pdf文件轉換爲運行php的Linux CentOS服務器上的HTML文件。人們將這些文件作爲簡歷提交。到目前爲止,我發現PHPDocx在將docx轉換爲html方面非常出色。但我被困在doc/pdf中。當我運行測試時,PDFTOHTML給出錯誤「不好的顏色」。至於文檔,我只發現了wvwave,這看起來很複雜和龐大的安裝。使用PHP將doc,docx,pdf轉換爲HTML linux

沒有人有任何想法如何輕鬆將doc/pdf轉換爲HTML?

+1

你有專用的服務器或您使用分片託管? – pregmatch 2013-08-26 16:55:15

+0

PDF to HTML:http://stackoverflow.com/questions/16785198/use-pdf-js-to-statically-convert-a-pdf-to-html – SteAp 2013-08-26 18:09:21

+0

PDF to HTML based on Xpdf:http:// sourceforge。 net/projects/pdftohtml/ – SteAp 2013-08-26 18:12:00

回答

3

我唯一能想到的就是FPDF。 它旨在用PHP創建PDF文件,但它也可以打開PDF文件。 也許你可以使用它作爲基礎,併爲它開發某種toHTML函數。

它是完全免費使用,它已經有一些擴展。 它可能會幫助你。

http://www.fpdf.org

編輯: 感謝除了我的帖子在評論皮埃爾:

您可以使用FPDI:http://www.setasign.de/products/pdf-php-solutions/fpdi但輸入PDF就像一個圖像。

到目前爲止我還沒有看過它,但這可能有幫助。

+0

你是垃圾郵件FPDF?用戶明確要求PDF到HTML,而不是相反 – user1914292 2013-08-20 08:11:48

+0

我知道!但它也可以讀取現有的PDF文件,我非常確信你可以開發一些能夠使用FPDF作爲基類來輸出HTML的東西! – Ch33f 2013-08-20 12:39:52

+2

+1因爲不公平user1914292的downvote,他沒有閱讀答案和downvoted。但是Ch33f,你不能按預期使用fdpf。您可以使用fpdi:http://www.setasign.de/products/pdf-php-solutions/fpdi/,但輸入pdf就像圖像一樣。 – Pierre 2013-08-26 17:55:55

3

至於.doc文件想到如何努力的OpenOffice/LibreOffice的,是這樣的:
lowriter -convert-to html doc_file.doc –
至於PDF推移,如果PDF是文本的圖形表示,那麼你的運氣了,最好你可以做的是嘗試將它轉換爲ImageMagick圖像,如果它是一個適當的文本,它應該很容易轉換。

1

要輕鬆地將PDF轉換爲html,我會建議pdf2htmlEX,它會生成出色的HTML,並且運行時轉換足夠快。您應該首先努力爲您的系統進行優化和構建。項目鏈接中包含簡單的構建方法。