從PDF文檔中提取文本 - C＃

是否有可靠的方法從PDF中提取文本？首先想到的是，PDF可能有多個列，並且提取機制需要以某種方式知道邏輯結構。我知道一些PDF文檔是「標記的」，但我需要支持幾乎任何PDF文檔。從PDF文檔中提取文本 - C＃

任何第三方組件在這裏拯救？

2010-02-19 DotnetDude

可能的重複[在C＃中從PDF中提取文本]（http://stackoverflow.com/questions/2116440/extracting-text-from-pdfs-in-c-sharp） – 2013-06-25 11:33:09

2010-02-19 15:06:01

回答引用另一個問題，而不是標記... – Gnqz 2017-10-06 19:33:00

有些PDF文件是掃描，所以OCR將需要（不容易，至少可以這樣說）。

一些PDF文件被壓縮，其他文件（更少）是裸露的PDF文件。

PDF文件格式本身有很好的文檔記載，但是當涉及到從簡單的單列文檔中提取正確的「結構」時，您需要一個很高的順序。在內部，PDF排序表示如果每行文本都以絕對定位放置在DIV中，HTML的外觀如何。

2010-02-19 15:10:45 richardtallent

回答