目前我一直在使用下面的代碼的PDF文件轉換爲文本文件,我使用此代碼使用一些dll文件,從PDFBOX如何使用C#.NET
FileInfo file = new FileInfo("c://aa.pdf");
PDDocument doc = PDDocument.load(file.FullName);
PDFTextStripper pdfStripper = new PDFTextStripper();
string text = pdfStripper.getText (doc);
richTextBox1.Text = qq;
我可以能夠得到的文本文件,但沒有一個正確的格式PLZ給我一些想法
解釋與一般的PDF文本提取的問題,你說的「不正確的格式」是什麼意思?究竟是什麼錯誤?一般來說,從PDF文件中提取純文本並不容易,因爲PDF文檔並不總是以與文檔中出現的方式相同的方式存儲文本,所以PDFTextStripper可能只是做出「最佳猜測」。 – 2010-03-10 06:33:04
安排的話不一樣 – ush 2010-03-10 06:36:50