您的第一次嘗試應該是嘗試使用當前版本的PDFBox。您的0.7.3版本可追溯至2006年的!與此同時,PDFBox已成爲Apache項目,位於here: http://pdfbox.apache.org/,當前版本(截至2013年5月)爲1.8.1。我非常肯定,PDFBox nowerdays不支持PDF參考版本1.5中新增的PDF對象流和交叉參考流,Adobe Acrobat 6的版本已經構建爲
如果這樣做不起作用,您可能想要嘗試其他PDF庫,例如iText(或iTextSharp在你的情況下)版本5.4.x如果AGPL(或者購買許可證)對你來說沒有問題。
上利用iText(夏普)的文本分析的信息可以在第15章標明含量被發現和解析的iText in Action — 2nd Edition PDF。該章的樣本可以在網上找到:Java和.Net。
對於第一次測試,樣品ExtractPageContentSorted2.cs/ExtractPageContentSorted2.java將是一個好的開始。中央代碼:
PdfReader reader = new PdfReader(PDF_FILE);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
StringBuilder sb = new StringBuilder();
for (int i = 1; i <= reader.NumberOfPages; i++) {
sb.AppendLine(PdfTextExtractor.GetTextFromPage(reader, i));
}
如果沒有當前PDFBox的版本,也不是當前的iText(夏普)版本可以解析您的PDF,你可能要張貼檢查的樣本;有辦法從PDF中刪除文本解析所需的所有信息...
來源
2013-05-06 13:10:13
mkl
爲什麼用標記itextsharp標記此問題?你的問題只是關於PDFBox ... – 2013-05-06 12:34:15