2011-08-09 50 views
45

如何使用PHP從PDF文檔中提取文本?如何從PDF文檔中提取文本?

(我不能使用其他工具,我沒有root訪問權限)

我發現了一些功能,純文本的工作量,但他們沒有處理好Unicode字符:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

+0

你解決了這個? – 2012-08-23 05:35:00

+0

鏈接不起作用!請糾正! – cwiggo

+12

不明白爲什麼這個問題被認爲是題外話,因爲它是非常有用的,即使它可能會吸引「自以爲是」的答案,但最好能看到不同的觀點。也有很多點擊。 – user3574492

回答

43

下載class.pdf2text.php @https://pastebin.com/dvwySU1a(更新2014年4月的5)或http://www.phpclasses.org/browse/file/31030.html(需要註冊)

代碼:

include('class.pdf2text.php'); 
$a = new PDF2Text(); 
$a->setFilename('filename.pdf'); 
$a->decodePDF(); 
echo $a->output(); 

類並不適用於所有PDF格式的我測試過的工作,試試看,你可能會得到幸運:)


如果上述方法無效,請嘗試http://pdfparser.org/

+2

如果這裏是pdf文件中的任何表格,那麼它不會顯示它。我想提取,因爲它是以PDF格式顯示PDF格式的文本。任何解決方案? – 2012-08-23 05:36:28

+0

非常感謝...這個班級非常有用。在這個我只需要一個來自pdf的網址。任何方式來找到...? –

+0

該類包含可能導致'頭已發送'錯誤的輸出緩衝區刷新。如果您禁用它(對於任何合理大小的文檔),看似沒有任何不良影響。 –

9

我知道這個話題是相當古老的,但這種需求仍然活着。 我看了很多文件,論壇和腳本,並建立一個新的先進的一個,它支持壓縮和非壓縮的PDF:

https://gist.github.com/smalot/6183152

希望它可以幫助EVERONE

+0

似乎沒有得到您的腳本輸出。你有可以測試的PDF嗎? –

+0

這對我有用!謝謝 – kakoma

+0

我在這裏找到了一個好的:https://github.com/christian-vigh-phpclasses/PdfToText – dlofrodloh