提取PDF註釋/評論

我們有一個非常複雜的打印工作流程，其中控件是使用Adobe Reader或Adobe Acrobat爲生成的PDF文檔的草稿版本添加註釋和註釋。作爲工作流程的一部分，應該解析帶註釋和註釋的導入PDF文檔，並將註釋導入CMS系統（與PDF一起）。提取PDF註釋/評論

問：是否有任何可靠的工具（首選Python或Java）來提取這樣的數據？乾淨而可靠的PDF文件的方式？

來源

2012-12-06 Andreas Jung

你可以把一個包含註釋和註釋的示例pdf的鏈接，所以我們可以處理它。 –

此代碼應該完成這項工作。 One of the answers到Parse annotations from a pdf這個問題對於讓我寫下面的代碼非常有幫助。它使用poppler庫來解析註釋。這是到annotations.pdf的鏈接。

代碼

import poppler, os.path 

path = 'file://%s' % os.path.realpath('annotations.pdf') 
doc = poppler.document_new_from_file(path, None) 
pages = [doc.get_page(i) for i in range(doc.get_n_pages())] 

for page_no, page in enumerate(pages): 
    items = [i.annot.get_contents() for i in page.get_annot_mapping()] 
    items = [i for i in items if i] 
    print "page: %s comments: %s " % (page_no + 1, items)

輸出

page: 1 comments: ['This is an annotation'] 
page: 2 comments: [' Please note ', ' Please note ', 'This is a comment in the text']

安裝

在Ubuntu安裝爲如下。

apt-get install python-poppler

來源

2012-12-06 17:16:29

這正是我需要的，但我在安裝poppler時遇到了很多麻煩。任何援助將不勝感激 - 我剛剛提出了一個問題[這裏]（http://stackoverflow.com/questions/32176950/install-poppler-for-python-on-mac） – simmons

@simmons我已經把Ubuntu的安裝說明。我無法通過點安裝它 –

提取PDF註釋/評論

回答

相關問題