2010-03-10 80 views
1

目前我一直在使用下面的代碼的PDF文件轉換爲文本文件,我使用此代碼使用一些dll文件,從PDFBOX如何使用C#.NET

 FileInfo file = new FileInfo("c://aa.pdf"); 

     PDDocument doc = PDDocument.load(file.FullName); 

     PDFTextStripper pdfStripper = new PDFTextStripper(); 
     string text = pdfStripper.getText (doc); 
     richTextBox1.Text = qq; 

我可以能夠得到的文本文件,但沒有一個正確的格式PLZ給我一些想法

+0

解釋與一般的PDF文本提取的問題,你說的「不正確的格式」是什麼意思?究竟是什麼錯誤?一般來說,從PDF文件中提取純文本並不容易,因爲PDF文檔並不總是以與文檔中出現的方式相同的方式存儲文本,所以PDFTextStripper可能只是做出「最佳猜測」。 – 2010-03-10 06:33:04

+0

安排的話不一樣 – ush 2010-03-10 06:36:50

回答

1

從PDF文件中提取文本是不平凡的。

引用th iTextSharp教程。

「的PDF格式只是其中 文本和圖形沒有放置任何 結構信息的畫布。因此 有沒有一個 PDF文件中的任何‘iText的對象’。在每一個頁面有將 可能是一些「條件」的,但 你不能重建一個短語或使用這些字符串一個 段落。有 可能是多條線路的繪製, 但你不能檢索表對象 總之: 解析PDF文件的內容是 不可能使用iText。「

有幾個商業應用聲稱能夠做到這一點。買者自負。

還有一個名爲Poppler http://poppler.freedesktop.org/的免費軟件庫,供GNOME和KDE的pdf查看器使用。它有一個名爲pdftotext()的函數,但我沒有經驗。這可能是你最好的免費選擇。

+0

非常感謝你我會盡力 – ush 2010-03-10 06:51:07

+0

它不起作用 – ush 2010-03-18 06:48:38

+0

嗯,這應該是一個難題。我認爲你不是自己創建這些pdf? – Spike 2010-03-18 07:11:55