我試圖從PDF文件中提取文本:http://www.filedropper.com/copy_1,但是我得到的文本不到一頁的一半。 我使用iTextSharp的:PDF提取不完整
PdfReader reader = new PdfReader(file);
string currentText = PdfTextExtractor.GetTextFromPage(reader, 1);
我已經使用的,以及代替默認LocationTextExtractionStrategy SimpleTextExtractionStrategy:
PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy())
最初是從微軟報表服務生成的文件(我沒有一個訪問),並且我已經提取了一個頁面來測試文本提取。
任何人都可以幫忙嗎?
您的PDF根本不包含根據PDF規範進行文本提取所需的信息。嘗試從Adobe Reader複製並粘貼缺失的文本部分,您會發現它也會失敗。 Microsoft Reporting Service長期以來一直在創建不足以進行文本提取的PDF。 – mkl
此外,發佈代碼時,請以合理的方式進行。您發佈的代碼會創建一個PDF閱讀器和一個不用於任何內容的提取策略,然後文本提取器使用默認的提取策略從一些模子的閱讀器中提取... – mkl
感謝您的答覆。就像你問的那樣,我修復了那些無知的代碼。 如果acrobat閱讀器顯示它,它如何不包含信息(如數字值)? – Hefass