2010-07-22 572 views
2

我知道關於此主題有幾個問題。從PDF文件中獲取純文本

我需要一個框架/腳本/解決方案到從php文件獲取純文本由php

是否存在一個解決方案如何從PDF文件中獲取純文本? (是的,我搜索了這個小時,這是最後一次機會)。

回答

1

在Linux系統下,只需使用pdftotext(用了shell_exec)

echo `pdftotext in.pdf out.txt`; 

PS:取這個article一看,我不知道它是否有用。

+0

又是怎麼回事commencial webhostings?我不能安裝linux應用程序到服務器。 – Martin 2010-07-22 21:24:32

+0

如果他們沒有禁用'shell_exec'函數(和它的系列),你可以簡單地上傳可執行文件並運行它。 – Ehsan 2010-07-22 21:28:10

0

我相信你可以通過使用處理OCR的google docs API來解決問題。

它轉換圖像 以明文所以你首先要對PDF轉換爲圖像使用Ghostscript和ImageMagick的或別的東西