2010-12-10 16 views
3

我想使用iTextSharp從pdf文件中檢索文本。但是,我無法像在itextsharp(itext)的JAVA庫中那樣使用PDFTextExtractor。我需要readPDFOffline類來返回文件的內容。我會給你下面的僞代碼,以便很好地理解我想要的。如何在iTextSharp上使用PDFTextExtractor

private string readPDFOffline(string fileUri);
閱讀PDF;
檢索本文內容此.pdf; *
將內容保存爲字符串contentOfflineFile;
return contentOfflineFile;

我想這樣做代碼的部分*

回答

2

PdfTextExtractor出現在最近iTextSharp的,available here的版本。

檢索PDF格式的文本是而不是容易。不是不可能的,但有時候唯一可行的就是OCR。對於所有其他情況,PdfTextExtractor應該可以工作。它不工作的情況被認爲是bug,應該這樣報告。

要知道,有幾種情況是什麼樣子的有效文本不提取:

  1. 文本沒有編碼...只是字形索引。 OCR時間。
  2. 「文本」,這只是原始路徑。可怕的低效率,以及更多OCR的時間。
  3. 「文本」是位圖中的像素。 OCR再一次。

OCR:Optical Character Recognition。谷歌代碼上免費提供了一款相當不錯的免費版本,儘管我不記得這個名字。

+0

謝謝你的回覆馬克。我通過改變使用PDFBox庫而不是iTextSharp的方式解決了我的問題。無論如何,獸醫的一個很好的回覆 – gencay 2010-12-11 00:45:49