我們使用iTextSharp和C#WinForms應用程序來解析PDF文件。使用iTextSharp,我可以輕鬆地從PDF文件中提取文本數據。假設一個PDF文件包含一個由兩行文本包圍的圖像。在這種情況下,我無法提取關於圖像的信息。是否可以使用iTextSharp從PDF文件中獲取結構元素?
我的要求是:
- 獲取PDF文件的結構元素
- 過程中的每個是否是類型文本,圖像,表格或其它
。例如,結構元件是類似於以下內容:
text :paragraph1
text :paragraph2
Image:Image
text :paragraph3
Table:table info
text :Paragraph4
如果我可以獲取信息像這樣的格式,我可以輕鬆理解文本,圖像,表格,頁眉或頁腳信息。
那麼,是否有可能使用iTextSharp獲取這類信息?如果是的話,請在這方面給我啓發。否則,您能否提出一些其他能夠滿足此要求的工具?
感謝所有,
Saravanan
可能的重複http://stackoverflow.com/questions/5945244/extract-image-from-pdf-using-itextsharp – emd 2013-05-01 16:12:27
這是特定於C#4.0嗎? – 2013-06-11 21:26:37
@ Ryan Gates:是...這是C#4.0 – Saravanan 2013-06-12 03:58:26