2012-03-25 52 views
2

我正在從一個pdf文檔中提取指定文本的項目。我沒有這種提取的經驗。一個問題是,我們不只是想要轉儲文檔中的所有文本。相反,有沒有辦法只提取pdf中的某些字段?有沒有可以用於這樣的事情的pdf模板的概念?文本提取項目 - 從PDF中只提取特定行/項目的最佳工具?

我想使用蘋果的Automator - 這是能夠獲取所有文本,但沒有指定的文本。理想情況下,我希望Pages中的某人擁有30個謹慎的文本行,並將其中的20行指定爲「目錄項」,並讓我們的Automator腳本僅使用這20行。

有關最佳工作流程/提取工具的任何想法?我更希望只使用消費級別的項目,如Apple Pages,Automator和ruby或python作爲腳本語言。

THX

編輯#1 看起來像標籤PDF的可能做到這一點的一種方式 - 不知道如何很好地支持蘋果的頁面,這是

+1

好奇爲什麼人們投票結束? – timpone 2012-03-25 17:09:20

+0

你想從標籤pdf格式中提取PDF文件嗎? – alexis 2012-03-26 15:12:13

+0

我們可以選擇是否標記它們。這些將是最終用戶可以製作的文件,並且不確定支持哪些標記的PDF(或者是否完全)。這是一個從頭開始的解決方案,所以任何想法都是值得的。 – timpone 2012-03-26 17:23:20

回答

0

可以在使用Origami紅寶石,一個框架,旨在解析,分析, 和僞造PDF文檔,或Python等效:Origapy,一個簡單的Python 接口爲基於Ruby的摺紙。

+0

thx - 我已經使用摺紙,但我不認爲它處理標記的PDF – timpone 2012-03-25 16:59:13

0

對於Ruby,您可以嘗試pdf-reader來解析PDF並訪問元數據和內容。提取您感興趣的特定項目是另一回事,但如何去做這件事取決於您期望的數據格式。

+0

thx回答 - 同意'另一個故事'。在這一點上,我們控制了格式,所以我們希望爲Apple Pages中的自動文本提取系統的問題創建最好的故事 – timpone 2012-03-25 16:58:02

1

用python,最好的選擇可能是PDFMiner。它可以提取每個文本字符串的座標,因此您可以自己計算表單中的矩形並挑選出其中的內容。這是非常低的水平,但不幸的是PDF格式很低。

請注意,除非您已經瞭解了很多關於PDF結構的知識,否則您會發現API和文檔很少。看看使用示例,包括這裏的SO。