2011-05-03 51 views
3

我必須將PDF文件中的數據放入特定的數據庫結構中。這要求我能夠從PDF文件中獲取某些數據。由於pdf沒有任何標籤等......我想知道是否有可能獲得基於顏色的文本。舉例來說,我想要所有的紅色文本。或者我想要文檔中的所有斜體文字。這在C#中可能嗎?或者是否有其他方法可以輕鬆過濾PDF文檔中的數據?如何從pdf中獲取某種顏色的文本c#

enter image description here

+1

您使用的是什麼PDF庫? – Oded 2011-05-03 15:43:34

+0

iText pdf,但還沒有找到我要找的功能。所以我對任何有關圖書館的建議都是開放的 – Ojtwist 2011-05-03 15:45:00

回答

0

我採取了不同的方法。我將pdf轉換爲excel文件。這是很容易搜索彩色文本

0

的iText的PdfTextExtractor(以及所有它依賴於代碼)不不跟蹤當前的顏色。哎喲。這不會是所有難以增加,所以你可以自己修改的iText:

  1. 添加筆觸和填充顏色成員對GraphicState類(適當地更新各種構造函數)。你可能需要爲'g','G','rg','RG','K'和'k'添加ContentOperator類(也可能是CS,cs,SC,sc,SCN,scn ),修改筆觸和填充顏色。
  2. 將方法添加到TextRenderInfo以獲取當前描邊和填充顏色。
相關問題