如何從pdf中獲取某種顏色的文本c＃

我必須將PDF文件中的數據放入特定的數據庫結構中。這要求我能夠從PDF文件中獲取某些數據。由於pdf沒有任何標籤等......我想知道是否有可能獲得基於顏色的文本。舉例來說，我想要所有的紅色文本。或者我想要文檔中的所有斜體文字。這在C＃中可能嗎？或者是否有其他方法可以輕鬆過濾PDF文檔中的數據？如何從pdf中獲取某種顏色的文本c＃

enter image description here

來源

2011-05-03 Ojtwist

您使用的是什麼PDF庫？ – Oded 2011-05-03 15:43:34

iText pdf，但還沒有找到我要找的功能。所以我對任何有關圖書館的建議都是開放的 – Ojtwist 2011-05-03 15:45:00

我採取了不同的方法。我將pdf轉換爲excel文件。這是很容易搜索彩色文本

來源

2011-05-04 17:12:18 Ojtwist

通過使用這個庫http://www.codeproject.com/KB/files/xpdf_csharp.aspx?msg=3154408 你必須每一個字風格的訪問（字體，顏色...）

this.pdfDoc.Pages[4].WordList.ElementAt(143).ForeColor

來源

2011-05-03 16:14:27 anth

的iText的PdfTextExtractor（以及所有它依賴於代碼）不不跟蹤當前的顏色。哎喲。這不會是所有是難以增加，所以你可以自己修改的iText：

添加筆觸和填充顏色成員對GraphicState類（適當地更新各種構造函數）。你可能需要爲'g'，'G'，'rg'，'RG'，'K'和'k'添加ContentOperator類（也可能是CS，cs，SC，sc，SCN，scn ），修改筆觸和填充顏色。
將方法添加到TextRenderInfo以獲取當前描邊和填充顏色。

來源

2011-05-03 18:13:35

嘗試PdfLibTET http://www.pdflib.com/products/tet/
它應該能夠獲得有關的文字信息。

來源

2011-05-03 19:35:09

如何從pdf中獲取某種顏色的文本c＃

回答

相關問題