2010-08-11 113 views
1

我需要一些處理PDF文檔的建議。這些文件是年度報表,包含我需要調和的金額和美元數字。如何處理PDF文檔?

我看到

1) iTextSharp, 
2) PDFBox (IKVM) 
3) PDFSharp 
4) PDFEdit API (from Adobe) 

你會建議哪幾個,如果有任何限制,我應該知道的一些建議?除開源外,只要支持良好且功能齊全,我不介意爲商業產品付費。

**其他信息:** 這些PDF都是由同一個第三方供應商生成的。並非所有的PDF都有相同的結構 - 大約有10種不同的結構(模板)。

我對PDF沒有寫入要求。

非常感謝提前。

回答

2

我的投票將是PDFSharp,原因如下...

  • 更容易比iTextSharp的(主觀意見)
  • 許可認證(X11許可)使用
  • 我從來沒有聽說過PDFBox的前;-)
+0

謝謝Tim。 PDFBox現在由Apache接管。 http://pdfbox.apache.org/ – Syd 2010-08-11 04:44:07

1

你也可以看看PDFText。我們在很多情況下使用它來從PDF文件中提取原始數據。他還有其他便宜的圖書館來協助PDF操作的其他方面。

這假定文檔沒有被掃描並且有可以提取的數據。

+0

感謝您的鏈接(+1)。我會加入我的研究。一個問題,爲什麼你選擇這個選項而不是我上面列出的? – Syd 2010-08-11 22:57:42

+1

@Syd。我們選擇了另一個需要從不同來源的數千個pdf文件中提取數據的項目。它變成了唯一能處理所有文件的庫,尤其是那些來自oracle xml publisher的文件都是畸形的。因爲它工作得很好,所以每次我們需要pdf文本提取時都會轉向它,並且已經編寫了一整套包裝來從不同區域拉出等。對於價格,我們發現它非常有用。開發人員的支持也很好。 – 2010-08-12 12:24:17

+0

感謝道格拉斯提供額外的理由(+1爲您的額外評論)。 – Syd 2010-08-19 04:49:31

1

結賬http://www.pdftron.com/。我們使用它來讀取和寫入PDF文檔 - 非常可靠。

+0

Paul84。感謝您的鏈接(+1)。我會加入我的研究。一個問題,爲什麼你選擇這個選項而不是我上面列出的? – Syd 2010-08-11 22:58:35