如何使用C＃.NET

目前我一直在使用下面的代碼的PDF文件轉換爲文本文件，我使用此代碼使用一些dll文件，從PDFBOX如何使用C＃.NET

 FileInfo file = new FileInfo("c://aa.pdf"); 

     PDDocument doc = PDDocument.load(file.FullName); 

     PDFTextStripper pdfStripper = new PDFTextStripper(); 
     string text = pdfStripper.getText (doc); 
     richTextBox1.Text = qq;

我可以能夠得到的文本文件，但沒有一個正確的格式PLZ給我一些想法

來源

2010-03-10 ush

解釋與一般的PDF文本提取的問題，你說的「不正確的格式」是什麼意思？究竟是什麼錯誤？一般來說，從PDF文件中提取純文本並不容易，因爲PDF文檔並不總是以與文檔中出現的方式相同的方式存儲文本，所以PDFTextStripper可能只是做出「最佳猜測」。 – 2010-03-10 06:33:04

安排的話不一樣 – ush 2010-03-10 06:36:50

從PDF文件中提取文本是不平凡的。

引用th iTextSharp教程。

「的PDF格式只是其中文本和圖形沒有放置任何結構信息的畫布。因此有沒有一個 PDF文件中的任何‘iText的對象’。在每一個頁面有將可能是一些「條件」的，但你不能重建一個短語或使用這些字符串一個段落。有可能是多條線路的繪製，但你不能檢索表對象總之：解析PDF文件的內容是不可能使用iText。「

有幾個商業應用聲稱能夠做到這一點。買者自負。

還有一個名爲Poppler http://poppler.freedesktop.org/的免費軟件庫，供GNOME和KDE的pdf查看器使用。它有一個名爲pdftotext（）的函數，但我沒有經驗。這可能是你最好的免費選擇。

來源

2010-03-10 06:48:41 Spike

非常感謝你我會盡力 – ush 2010-03-10 06:51:07

它不起作用 – ush 2010-03-18 06:48:38

嗯，這應該是一個難題。我認爲你不是自己創建這些pdf？ – Spike 2010-03-18 07:11:55

這裏有一個博客文章在http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text

來源

2010-03-10 08:59:35

如何使用C＃.NET

回答

相關問題