從Asp.Net核心提取PDF文件中的圖像和文本

-1

我已經花了今天研究這個的最好的部分，似乎有大量的X到PDF轉換器，但沒有很多庫（特別兼容.Net核心）用於從pdf中提取文本和圖像。從Asp.Net核心提取PDF文件中的圖像和文本

我對開源（首選）和商業圖書館都很感興趣，寧願不去node.js route（雖然我可能不得不作爲最後的手段）。建議和建議是最受歡迎的。

來源

2017-03-07 iKnowNothing

Docotic.Pdf library擁有.NET Core的版本。這是一個商業圖書館，我是其中一位開發人員。

該庫可以從PDF中提取文本和圖像，並執行許多其他操作。這裏是鏈接到相關的示例代碼：

更先進的方式來獲取信息提供過：

Extract text, paths and images

來源

2017-03-07 18:59:44 Bobrovsky

XFINIUM.PDF也支持.NET Core。
下面的代碼顯示瞭如何提取頁面對象並檢查它們。這些對象包括有關其用於繪製對象，文本對象，圖像數據和用於圖像對象信息的文本內容等

PdfFixedDocument document = new PdfFixedDocument(input); 

PdfContentExtractor ce = new PdfContentExtractor(document.Pages[0]); 
PdfVisualObjectCollection voc = ce.ExtractVisualObjects(false); 

for (int i = 0; i < voc.Count; i++) 
{ 
    switch (voc[i].Type) 
    { 
     case PdfVisualObjectType.Image: 
      PdfImageVisualObject ivo = voc[i] as PdfImageVisualObject; 
      // Examine the image object 
      // ... 
      break; 
     case PdfVisualObjectType.Text: 
      PdfTextVisualObject tvo = voc[i] as PdfTextVisualObject; 
      // Examine the text object 
      // ... 
      break; 
     case PdfVisualObjectType.Path: 
      PdfPathVisualObject pvo = voc[i] as PdfPathVisualObject; 
      // Examine the path object 
      // ... 
      break; 
    } 
}

免責聲明在頁面上的位置和大小，筆和/或刷信息：我爲開發該產品的公司工作。

來源

2017-03-08 16:02:17

從Asp.Net核心提取PDF文件中的圖像和文本

回答

相關問題