我運行一個求職網站,我需要將doc,docx和pdf文件轉換爲運行php的Linux CentOS服務器上的HTML文件。人們將這些文件作爲簡歷提交。到目前爲止,我發現PHPDocx在將docx轉換爲html方面非常出色。但我被困在doc/pdf中。當我運行測試時,PDFTOHTML給出錯誤「不好的顏色」。至於文檔,我只發現了wvwave,這看起來很複雜和龐大的安裝。使用PHP將doc,docx,pdf轉換爲HTML linux
沒有人有任何想法如何輕鬆將doc/pdf轉換爲HTML?
我運行一個求職網站,我需要將doc,docx和pdf文件轉換爲運行php的Linux CentOS服務器上的HTML文件。人們將這些文件作爲簡歷提交。到目前爲止,我發現PHPDocx在將docx轉換爲html方面非常出色。但我被困在doc/pdf中。當我運行測試時,PDFTOHTML給出錯誤「不好的顏色」。至於文檔,我只發現了wvwave,這看起來很複雜和龐大的安裝。使用PHP將doc,docx,pdf轉換爲HTML linux
沒有人有任何想法如何輕鬆將doc/pdf轉換爲HTML?
我唯一能想到的就是FPDF。 它旨在用PHP創建PDF文件,但它也可以打開PDF文件。 也許你可以使用它作爲基礎,併爲它開發某種toHTML函數。
它是完全免費使用,它已經有一些擴展。 它可能會幫助你。
編輯: 感謝除了我的帖子在評論皮埃爾:
您可以使用FPDI:http://www.setasign.de/products/pdf-php-solutions/fpdi但輸入PDF就像一個圖像。
到目前爲止我還沒有看過它,但這可能有幫助。
你是垃圾郵件FPDF?用戶明確要求PDF到HTML,而不是相反 – user1914292 2013-08-20 08:11:48
我知道!但它也可以讀取現有的PDF文件,我非常確信你可以開發一些能夠使用FPDF作爲基類來輸出HTML的東西! – Ch33f 2013-08-20 12:39:52
+1因爲不公平user1914292的downvote,他沒有閱讀答案和downvoted。但是Ch33f,你不能按預期使用fdpf。您可以使用fpdi:http://www.setasign.de/products/pdf-php-solutions/fpdi/,但輸入pdf就像圖像一樣。 – Pierre 2013-08-26 17:55:55
至於.doc文件想到如何努力的OpenOffice/LibreOffice的,是這樣的:
lowriter -convert-to html doc_file.doc –
至於PDF推移,如果PDF是文本的圖形表示,那麼你的運氣了,最好你可以做的是嘗試將它轉換爲ImageMagick圖像,如果它是一個適當的文本,它應該很容易轉換。
要輕鬆地將PDF轉換爲html,我會建議pdf2htmlEX,它會生成出色的HTML,並且運行時轉換足夠快。您應該首先努力爲您的系統進行優化和構建。項目鏈接中包含簡單的構建方法。
有各種工具,有已經做到這一點,如http://dag.wieers.com/home-made/unoconv/,http://www.phpdocx.com/(你已經嘗試過)
http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/看起來很有希望。
或者,你可以安裝在服務器上的LibreOffice的一個便攜版本,它允許命令行轉換
我相信還會有教程在那裏(在LibreOffice的支撐區域)
你有專用的服務器或您使用分片託管? – pregmatch 2013-08-26 16:55:15
PDF to HTML:http://stackoverflow.com/questions/16785198/use-pdf-js-to-statically-convert-a-pdf-to-html – SteAp 2013-08-26 18:09:21
PDF to HTML based on Xpdf:http:// sourceforge。 net/projects/pdftohtml/ – SteAp 2013-08-26 18:12:00