2011-03-08 28 views
1

我想閱讀現有pdf &提取文本和圖形信息。在圖形內,目前我只需要畫出的線條。有很多供應商閱讀PDF文本的組件,但也有那些可以給圖形信息嗎?雖然免費/開源是首選,但我也可以使用商業版本。從現有PDF閱讀文本+圖形(如線條)信息

的要求是:

對於PDF的每一頁:

  1. 閱讀文本塊

  2. 結識文本塊畫布統籌(含塊矩形)。請注意,對於字體較大的文字,矩形尺寸會發生變化。

  3. 線 - 在PDF頁面中的每一行

謝謝, 的(X1,Y1,X2,Y2)需要收集 - 導引頭

回答

0

這是我的領域,雖然問題有點老了。希望這仍然有幫助。

您留下一定空間的假設,所以這裏是我的:

  • 你尋求一個腳本,而不是獨立的軟件
  • 你的對象是檔案

    1. 你運行命令行腳本: 使用此命令行腳本,詳細信息如下:http://stefaanlippens.net/extract-images-from-pdf-documents

    2. 您使用imagemagick或graphicsmagick函數運行服務器端代碼: 「convert -background white -flatten test1.pdf test1.jpg」(imagemagick)會將整個PDF頁面渲染爲jpeg。如果您想將其裁剪爲圖像,則取決於項目的上下文以確定要執行此操作的最佳腳本。

一個相當複雜的問題。如果您希望提供有關該項目的更多詳細信息,則可以提供更多指導。祝你好運。

+0

類似的問題。我需要爲PDF圖像中的字段確定媒體框。嘗試確定是解析圖形命令還是對圖像本身進行佈局分析。你有指導嗎? Thx – 2015-06-28 20:42:18

+0

這是一個艱難的,大衛。什麼是目的/輸出媒體?你有什麼解析器可以訪問? – Parapluie 2015-06-30 16:54:07

+0

小目標:一些PDF實現所有字段,但最終簽名和日期字段,迫使用戶打印,簽名,掃描和傳真。我們希望通過點擊來實現添加簽名字段,但我們需要一種方法來確定字段出現的位置。大目標:通過將帶有實時字段的整個圖像轉換爲PDF,使相信表單圖像的純真用戶成爲實際的PDF表單。我們已經決定,使用圖像處理繪圖命令並不比解析繪圖命令更噩夢。目前使用LxPDFParser(https://github.com/DeveloperLx/LxPDFParser)。 – 2015-07-01 17:08:57