2009-11-23 111 views
5

您能否告訴我如何使用PHP從PDF文檔中提取內容?格式化是我在這裏面臨的主要問題。因此,讓我知道,是否有一些方法可以提取相同格式的內容並將其顯示在在線文本編輯器中。使用PHP從pdf中提取內容

感謝

回答

0

據我所知,它是而不是可能使用PHP在運行中將PDF轉換爲可編輯的HTML,同時保留格式。有大量的桌面應用程序,所有嘗試從PDF中提取數據有時更多,有時不太可靠的結果。我會說目前這不是現實可行的,你所能做的就是使用XPDF或其他命令行工具來提取純文本。

它可能不同於那個基於XML的新PDF格式,但我還沒有真正瞭解這一點。

隨意證明我錯了,當然 - 如果有解決方案,我會非常感興趣。

1

看一看XPDF

我想你可以在編輯器中顯示它做

$text = shell_exec("pdftotext $pdffile"); 

作爲?那麼,哪位編輯? 要保留某種類型的格式信息,並假設您使用的是Web編輯器,則表示HTML編輯器,您可以將其轉換爲HTML。也許有其他工具可用,但由於我使用xpdf,我遇到了基於xpdf的this轉換器。

基本用法

pdftohtml -noframes -c test.pdf test.html 

爲了得到它到你喜歡的編輯器

echo file_get_contents('test.html'); 

您可能需要包裝內的PHP函數/類的東西。你可能想要添加安全措施和什麼。

+0

任何在線自定義開發的網站編輯器。 – jose