如何在C#中從pdf或word文件中提取文本(刪除粗體,圖像和其他富文本格式的媒體)?從pdf和word文件中提取文本
回答
您可以使用爲索引服務設計/使用的過濾器。它們旨在從各種文檔中提取純文本,這對於在文檔內進行搜索很有用。您可以將它用於Office文件,PDF,HTML等,基本上任何具有過濾器的文件類型。唯一的缺點是你必須在服務器上安裝這些過濾器,所以如果你沒有直接訪問服務器,這可能是不可能的。某些過濾器預裝在Windows中,但有些過濾器,如PDF,必須自行安裝。對於C#實現檢查這篇文章:Using IFilter in C#
對於PDF你看看TallPDF
PDF:
您有各種選擇。
pdftotext:
下載XPDF utilities。在.zip文件中有各種命令行工具。一個是pdftotext(.exe)
。它可以從行爲良好的PDF文件中提取所有文本內容。請鍵入pdftotext -help
以瞭解其命令行參數。
的Ghostscript:
安裝latest version of Ghostscript(v.8.71)。 Ghostscript是一個PostScript和PDF解釋器。你可以用它來從PDF中提取文本:包含在3-7的input.pdf
頁到stdout
gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET
這將輸出文本。您可以通過在命令中附加> /path/to/output.txt
將其重定向到文件。 (檢查以確保該的PostScript實用程序ps2ascii.ps
存在於你的Ghostscript的lib
子目錄。)
如果省略-dSIMPLE
參數,文本輸出將被猜測換行和字間距。有關詳細信息,請查看ps2ascii.ps
文件本身的註釋。您甚至可以用-dCOMPLEX
替換該參數以獲取其他文本格式信息。
XPDF比我找到的任何東西都更好 – chrisfs 2011-07-05 17:20:08
你可能想看看PDFBox。這裏是一個代碼項目頁面的鏈接,向您展示如何在C#中使用它以及其他有用的評論。
http://www.codeproject.com/KB/string/pdf2text.aspx
至於Word中使用Word對象模型的建議可能是最準確的。
Docotic.Pdf library可用於從PDF文件中提取文本。
該庫可以extract plain text and text with formatting。此外,還可以使用庫的API檢索collection of words或邊界矩形的字符。
聲明:我爲圖書館的供應商工作。
- 1. 從pdf文件中提取文本
- 2. 從pdf文件中提取文本
- 3. 從PDF文件中提取文本
- 4. 從PDF文件中提取文本
- 5. 如何從pdf文件中提取文本和文本座標?
- 6. 從PDF中裁剪和提取文本
- 7. PHP - 從不同文件格式中提取文本Word/Excel/Powerpoint/PDF/RTF
- 8. 從PDF文檔中提取文本 - C#
- 9. 從Asp.Net核心提取PDF文件中的圖像和文本
- 10. 從pdf文件中提取所有圖像和文本
- 11. 從PDF文件中提取文本和圖像
- 12. 從Word文檔中提取宏到c#文本文件#
- 13. 從MS Word中提取文本信息
- 14. 從Word Doc Binary中提取文本
- 15. 從python中的MS word文件中提取文本
- 16. Python:從URL中的Word文件中提取文本
- 17. 如何從pdf文件獲取highligted word?
- 18. 提取Word文件
- 19. 使用Python從word文檔中提取圖像和文本
- 20. 如何從使用C#的Word文件中提取文本?
- 21. 從多個Microsoft Word文件中提取文本框數據
- 22. 用scrapy從MS word文件中提取文本
- 23. 如何從word文件中提取文本.doc,docx,.xlsx,.pptx php
- 24. 提取PDF文本
- 25. pdf文本提取
- 26. 從PDF中提取文本內容
- 27. 從pdf中提取文本到c#
- 28. 從PDF中提取文本位置
- 29. 用Poppler(C++)從PDF中提取文本
- 30. 在java中使用Apache Tika從PDF文件中提取文本
這就是我所需要的。謝謝! – 2010-09-11 06:29:43