2011-02-05 77 views
4

是否可以使用PHP或Linux庫獲取PDF文檔中所有文本框的X/Y座標和高度/寬度?我正在使用PDFTK來提取PDF中的所有文本字段,但它不會提供座標和/或尺寸信息。如果不是,是否可以遍歷PDF文檔並計算文本字段的x,y和高度/寬度數據?獲取PDF中文本框的尺寸和座標

回答

0

這是可能的,但很難做到。

您可以使用FPDI在PHP中打開PDF文檔。它在內存中生成一個抽象的PDF對象樹。 TCPDF和FPDF可以將其保存回去。

但遍歷所述樹並找到正確的屬性是非常。 (我意外的動詞。)

現在PDF格式實際上是人類可讀的。它肯定會包含可讀格式的座標(它主要在點IIRC)。所以如果你只知道在哪裏尋找,你可能會用簡單的正則表達式來發現它。有些節點只需要進行gzuncompress()編輯,而不是試圖修改文檔或將其保存回去。所以,試試FPDI和print_r()來設計一個策略。

0

是的,這不是太難。我所知道的最好的工具是pdfminer。它是python,但如果你不想使用python,你可以將pdf信息轉換爲xml格式,然後用你選擇的武器解析它:)回覆如果你有麻煩:)