2012-01-12 99 views
2

我需要閱讀複雜PDF中的某些部分。我搜索了網絡,有人說FPDF是好的,但它不能閱讀PDF,它只能寫。有沒有一個lib允許獲得給定PDF的某些內容?用PHP閱讀PDF的內容?

如果不是,讀取給定PDF的某些部分是一種好方法嗎?

謝謝!

+0

你如何定義 '某些部分'?按頁面?通過文檔上的座標位置?等等; – Jakub 2012-01-12 13:42:25

+0

不確定我自己,我不熟悉PDF結構... Illproly將其轉換爲文本之前,並解析,使用一些正則表達式。 – EOB 2012-01-12 13:46:07

回答

1

我在這裏看到的兩個解決方案:

  • 轉換PDF文件到之前別的東西:text,HTML。
  • 在這裏使用庫來做到這一點和壞消息,其中大部分都是用Java編寫的。

https://whatisprymas.wordpress.com/2010/04/28/lucene-how-to-index-pdf-files/

+0

是否有一個Widnows cmd工具? – EOB 2012-01-12 13:44:06

+0

它似乎是的:http://www.foolabs.com/xpdf/download.html – greut 2012-01-12 13:52:28

+0

是的,即使是複雜的PDF文件,它轉換的速度也相當快。我想沒有其他辦法了......必須先解析文本。 – EOB 2012-01-12 13:53:32