pdfbox

    3熱度

    3回答

    我試圖創建一個基本上是我的PDF集合的目錄的應用程序。我們正在談論的15-20GBs包含數以萬計的PDF文件。我也計劃加入一個全文檢索機制。我將使用Lucene.NET進行搜索(實際上,NHibernate.Search)以及一個用於PDF->文本轉換的庫。哪一個會是最好的選擇?我正在考慮這些: PDFBox的 pdftotext(從xpdf中)通過C#包裝 iTextSharp的 編輯:其他不錯

    0熱度

    1回答

    我正在使用PDFBox從我的用戶輸入表單之一生成PDF。對於繪製線我使用PDPageContentStream.drawLine和文本PDPageContentStream.drawString。文本工作完美,但在使用drawLine時,當我嘗試打印PDF時,出現如附圖所示的錯誤。我的代碼看起來像這樣 PDPage page = new PDPage(); release.addPage(pag

    2熱度

    2回答

    我想構建用於.NET項目的最新版本的PDFBox(http://pdfbox.apache.org/userguide/dot_net.html)。 我對Java沒有任何經驗,但我使用這裏定義的步驟: http://www.ikvm.net/userguide/tutorial.html 我使用以下版本: - IKVM(0.42.0.6) - PDFBox的(1.2.1 )JAR文件 問題是,當我

    2熱度

    2回答

    我正在使用PDFBox從PDF中提取文本。 PDF有一個表格結構,它非常簡單,列間距也非常寬。 這個工作非常好,除了所有類型的水平空間都被轉換爲單個空格字符,所以我不能再分開各列(一列中的空格看起來就像列之間的空格)。 我明白,一個通用的解決方案是很辛苦,但在這種情況下,列是真的相距甚遠,使得具有「長間隔」和「字與字之間的空間」之間的簡單區別就足夠了。 有沒有辦法告訴PDFBox將多於x英寸的水平

    1熱度

    1回答

    我需要編輯現有的屬性或設置新的PDF屬性,如作者姓名,標題,主題等從Java應用程序。有沒有辦法做到這一點?我找到了apache.pdfbox庫,但我不知道它是否能解決我的問題?

    0熱度

    1回答

    我有一個包含 'UniCNS-UCS2-H' 字體的PDF, 我都嘗試PDFBOX和pdfrenderer,他們都拋出異常: 未知編碼 'UniCNS-UCS2-H' 這種字體被列入在字體文件:mingliu.ttc(這是一個真正的類型集合文件,我不知道做這件事 我能做些什麼來讓這兩個庫支持其他字體

    49熱度

    5回答

    我想很多PDF文件合併到使用PDFBox之一,這是我做了什麼: PDDocument document = new PDDocument(); for (String pdfFile: pdfFiles) { PDDocument part = PDDocument.load(pdfFile); List<PDPage> list = part.getDocumentCata

    1熱度

    1回答

    我希望有人能夠對此有所瞭解。看起來我需要用[SERIALIZE]選項重新編譯PDFBOX。但我不知道如何。 我想要做的是將PDDocument doc對象存儲在數據庫中。 錯誤:在程序集'PDFBox,Version = 0.0.0.0,Culture = neutral,PublicKeyToken = null'中鍵入'org.apache.pdfbox.pdmodel.PDDocument'