我們有一個非常複雜的打印工作流程,其中控件是使用Adobe Reader或Adobe Acrobat爲生成的PDF文檔的草稿版本添加註釋和註釋。作爲工作流程的一部分,應該解析帶註釋和註釋的導入PDF文檔,並將註釋導入CMS系統(與PDF一起)。提取PDF註釋/評論
問:是否有任何可靠的工具(首選Python或Java)來提取這樣的數據? 乾淨而可靠的PDF文件的方式?
我們有一個非常複雜的打印工作流程,其中控件是使用Adobe Reader或Adobe Acrobat爲生成的PDF文檔的草稿版本添加註釋和註釋。作爲工作流程的一部分,應該解析帶註釋和註釋的導入PDF文檔,並將註釋導入CMS系統(與PDF一起)。提取PDF註釋/評論
問:是否有任何可靠的工具(首選Python或Java)來提取這樣的數據? 乾淨而可靠的PDF文件的方式?
此代碼應該完成這項工作。 One of the answers到Parse annotations from a pdf這個問題對於讓我寫下面的代碼非常有幫助。它使用poppler庫來解析註釋。這是到annotations.pdf的鏈接。
代碼
import poppler, os.path
path = 'file://%s' % os.path.realpath('annotations.pdf')
doc = poppler.document_new_from_file(path, None)
pages = [doc.get_page(i) for i in range(doc.get_n_pages())]
for page_no, page in enumerate(pages):
items = [i.annot.get_contents() for i in page.get_annot_mapping()]
items = [i for i in items if i]
print "page: %s comments: %s " % (page_no + 1, items)
輸出
page: 1 comments: ['This is an annotation']
page: 2 comments: [' Please note ', ' Please note ', 'This is a comment in the text']
安裝
在Ubuntu安裝爲如下。
apt-get install python-poppler
這正是我需要的,但我在安裝poppler時遇到了很多麻煩。任何援助將不勝感激 - 我剛剛提出了一個問題[這裏](http://stackoverflow.com/questions/32176950/install-poppler-for-python-on-mac) – simmons
@simmons我已經把Ubuntu的安裝說明。我無法通過點安裝它 –
你可以把一個包含註釋和註釋的示例pdf的鏈接,所以我們可以處理它。 –