2012-12-06 120 views
1

我們有一個非常複雜的打印工作流程,其中控件是使用Adobe Reader或Adobe Acrobat爲生成的PDF文檔的草稿版本添加註釋和註釋。作爲工作流程的一部分,應該解析帶註釋和註釋的導入PDF文檔,並將註釋導入CMS系統(與PDF一起)。提取PDF註釋/評論

問:是否有任何可靠的工具(首選Python或Java)來提取這樣的數據? 乾淨而可靠的PDF文件的方式?

+0

你可以把一個包含註釋和註釋的示例pdf的鏈接,所以我們可以處理它。 –

回答

2

此代碼應該完成這項工作。 One of the answersParse annotations from a pdf這個問題對於讓我寫下面的代碼非常有幫助。它使用poppler庫來解析註釋。這是到annotations.pdf的鏈接。

代碼

import poppler, os.path 

path = 'file://%s' % os.path.realpath('annotations.pdf') 
doc = poppler.document_new_from_file(path, None) 
pages = [doc.get_page(i) for i in range(doc.get_n_pages())] 

for page_no, page in enumerate(pages): 
    items = [i.annot.get_contents() for i in page.get_annot_mapping()] 
    items = [i for i in items if i] 
    print "page: %s comments: %s " % (page_no + 1, items) 

輸出

page: 1 comments: ['This is an annotation'] 
page: 2 comments: [' Please note ', ' Please note ', 'This is a comment in the text'] 

安裝

在Ubuntu安裝爲如下。

apt-get install python-poppler 
+0

這正是我需要的,但我在安裝poppler時遇到了很多麻煩。任何援助將不勝感激 - 我剛剛提出了一個問題[這裏](http://stackoverflow.com/questions/32176950/install-poppler-for-python-on-mac) – simmons

+1

@simmons我已經把Ubuntu的安裝說明。我無法通過點安裝它 –