2010-02-19 168 views
1

是否有可靠的方法從PDF中提取文本?首先想到的是,PDF可能有多個列,並且提取機制需要以某種方式知道邏輯結構。我知道一些PDF文檔是「標記的」,但我需要支持幾乎任何PDF文檔。從PDF文檔中提取文本 - C#

任何第三方組件在這裏拯救?

+0

可能的重複[在C#中從PDF中提取文本](http://stackoverflow.com/questions/2116440/extracting-text-from-pdfs-in-c-sharp) – 2013-06-25 11:33:09

回答

2

有些PDF文件是掃描,所以OCR將需要(不容易,至少可以這樣說)。

一些PDF文件被壓縮,其他文件(更少)是裸露的PDF文件。

PDF文件格式本身有很好的文檔記載,但是當涉及到從簡單的單列文檔中提取正確的「結構」時,您需要一個很高的順序。在內部,PDF排序表示如果每行文本都以絕對定位放置在DIV中,HTML的外觀如何。