文本提取項目 - 從PDF中只提取特定行/項目的最佳工具？

我正在從一個pdf文檔中提取指定文本的項目。我沒有這種提取的經驗。一個問題是，我們不只是想要轉儲文檔中的所有文本。相反，有沒有辦法只提取pdf中的某些字段？有沒有可以用於這樣的事情的pdf模板的概念？文本提取項目 - 從PDF中只提取特定行/項目的最佳工具？

我想使用蘋果的Automator - 這是能夠獲取所有文本，但沒有指定的文本。理想情況下，我希望Pages中的某人擁有30個謹慎的文本行，並將其中的20行指定爲「目錄項」，並讓我們的Automator腳本僅使用這20行。

有關最佳工作流程/提取工具的任何想法？我更希望只使用消費級別的項目，如Apple Pages，Automator和ruby或python作爲腳本語言。

THX

編輯＃1 看起來像標籤PDF的可能做到這一點的一種方式 - 不知道如何很好地支持蘋果的頁面，這是

2012-03-25 timpone

好奇爲什麼人們投票結束？ – timpone 2012-03-25 17:09:20

你想從標籤pdf格式中提取PDF文件嗎？ – alexis 2012-03-26 15:12:13

我們可以選擇是否標記它們。這些將是最終用戶可以製作的文件，並且不確定支持哪些標記的PDF（或者是否完全）。這是一個從頭開始的解決方案，所以任何想法都是值得的。 – timpone 2012-03-26 17:23:20

可以在使用Origami紅寶石，一個框架，旨在解析，分析，和僞造PDF文檔，或Python等效：Origapy，一個簡單的Python 接口爲基於Ruby的摺紙。

2012-03-25 16:36:12

thx - 我已經使用摺紙，但我不認爲它處理標記的PDF – timpone 2012-03-25 16:59:13

對於Ruby，您可以嘗試pdf-reader來解析PDF並訪問元數據和內容。提取您感興趣的特定項目是另一回事，但如何去做這件事取決於您期望的數據格式。

2012-03-25 16:44:49

thx回答 - 同意'另一個故事'。在這一點上，我們控制了格式，所以我們希望爲Apple Pages中的自動文本提取系統的問題創建最好的故事 – timpone 2012-03-25 16:58:02

用python，最好的選擇可能是PDFMiner。它可以提取每個文本字符串的座標，因此您可以自己計算表單中的矩形並挑選出其中的內容。這是非常低的水平，但不幸的是PDF格式很低。

請注意，除非您已經瞭解了很多關於PDF結構的知識，否則您會發現API和文檔很少。看看使用示例，包括這裏的SO。

2012-03-25 20:16:45 alexis

回答