2012-10-13 57 views
1

我想開發一種用於商業用途的工具(我打算出售它),其中將包括操縱文檔文件。免費的PDF操作庫或代碼?

操作將包括: 1.連接幾個PDF文件爲一個。 2.將doc/docx文件轉換爲PDF文件。 3.將單個PDF文件分成兩個分離的PDF文件。 4.編號PDF文件的頁面(連續運行的編號)。

對於這個問題,我正在尋找一個免費的庫或代碼來幫助我處理PDF操作。 我更喜歡圖書館是在C#因爲我的軟件將在C#中,因爲它有一些圖形用戶界面,但我也會用JAVA庫管理...

我發現了「pdftk」庫,它可以幫助我很多,但不幸的是,它的許可證不允許商業用途......

有沒有人有免費的圖書館或代碼的想法,可以幫助我呢?

非常感謝!

+0

相關:[PDF圖書館](http://stackoverflow.com/q/210029) –

回答

1

如果你想用java操縱PDF,PDFBox是不錯的選擇。

你也可以看看itextpdf,它支持java和C#。有圖書館的社區版本。

+0

感謝您的快速回答。我檢查了你提到的兩個庫,據我的理解,它們都有一個許可證,允許我只有在我的軟件也是免費的時候才能使用它們。我錯了嗎? – user1028741

+0

我不太清楚,但PDFBox是在Apache許可證2下,它不需要修改代碼(如果你修改代碼,你必須提交它),並將其包含到你的發行版中,它是許可證文件。 – AValchev

+1

iText在GNU Affero通用公共許可證第3版下,大多數雲提供商運行他們的SaaS產品,但它不那麼寬容。 – AValchev

1

查看http://www.foolabs.com/xpdf/download.html的pdftotext。

它提供了一個選項,用於將PDF文件的內容提取到文本文件中。與其他庫相比,它在突出顯示的文本文件中保留了PDF文件的格式。當您的PDF包含結構數據(如表格和PDF文件未標記)時,這非常有用。 PDFBox和其他庫在解析PDF時無法保持PDF內容的結構。

從PDF中提取文本文件後,可以自由使用自己喜歡的編程語言來解析文本文件。

看看這裏的許可證政策:http://www.glyphandcog.com/Xpdf.html。它清楚地表明,如果您直接使用他的可執行文件而不修改源代碼,則可以自由地重新分發使用可執行文件的應用程序。如果性能不是問題,則不需要觸摸其源代碼。

如果性能是一個問題,您可以創建應用程序的試用版,該應用程序突出顯示功能,但速度很慢,因爲它會在您每次處理PDF時運行可執行文件。付費版本可以直接調用pdftotext api,速度會更快。你可以很容易地彌補花在牌照上的錢。我會這樣做,如果我是你,但我現在已經在我的盤子上有一些大項目:)

我可以擔保pdftotext,因爲我已經使用它自己。所有其他庫似乎都忘記了用戶可能有興趣將PDF文件的格式保持原樣。

+0

謝謝@bot,但是這個庫也是在Apache2許可下的,它禁止在不添加源代碼的情況下使用庫等。 – user1028741

+0

請參閱我的編輯。它應該解決您的所有後顧之憂:) – CKing

+0

@ user1028741:這是錯誤的:該庫在GPL2(或商業版)下,並且您對Apache許可證的解釋是[錯誤](http://stackoverflow.com/q/1007338/) 821436)。 –