如何在iTextSharp上使用PDFTextExtractor

我想使用iTextSharp從pdf文件中檢索文本。但是，我無法像在itextsharp（itext）的JAVA庫中那樣使用PDFTextExtractor。我需要readPDFOffline類來返回文件的內容。我會給你下面的僞代碼，以便很好地理解我想要的。如何在iTextSharp上使用PDFTextExtractor

private string readPDFOffline（string fileUri）;
閱讀PDF;
檢索本文內容此.pdf; *
將內容保存爲字符串contentOfflineFile;
return contentOfflineFile;

我想這樣做代碼的部分*

來源

2010-12-10 gencay

PdfTextExtractor出現在最近iTextSharp的，available here的版本。

檢索PDF格式的文本是而不是容易。不是不可能的，但有時候唯一可行的就是OCR。對於所有其他情況，PdfTextExtractor應該可以工作。它不工作的情況被認爲是bug，應該這樣報告。

要知道，有幾種情況是什麼樣子的有效文本不提取：

文本沒有編碼...只是字形索引。 OCR時間。
「文本」，這只是原始路徑。可怕的低效率，以及更多OCR的時間。
「文本」是位圖中的像素。 OCR再一次。

OCR：Optical Character Recognition。谷歌代碼上免費提供了一款相當不錯的免費版本，儘管我不記得這個名字。

來源

2010-12-10 23:20:52

謝謝你的回覆馬克。我通過改變使用PDFBox庫而不是iTextSharp的方式解決了我的問題。無論如何，獸醫的一個很好的回覆 – gencay 2010-12-11 00:45:49

如何在iTextSharp上使用PDFTextExtractor

回答

相關問題