2017-03-07 533 views
-1

我已經花了今天研究這個的最好的部分,似乎有大量的X到PDF轉換器,但沒有很多庫(特別兼容.Net核心)用於從pdf中提取文本和圖像。從Asp.Net核心提取PDF文件中的圖像和文本

我對開源(首選)和商業圖書館都很感興趣,寧願不去node.js route(雖然我可能不得不作爲最後的手段)。建議和建議是最受歡迎的。

回答

2

XFINIUM.PDF也支持.NET Core。
下面的代碼顯示瞭如何提取頁面對象並檢查它們。這些對象包括有關其用於繪製對象,文本對象,圖像數據和用於圖像對象信息的文本內容等

PdfFixedDocument document = new PdfFixedDocument(input); 

PdfContentExtractor ce = new PdfContentExtractor(document.Pages[0]); 
PdfVisualObjectCollection voc = ce.ExtractVisualObjects(false); 

for (int i = 0; i < voc.Count; i++) 
{ 
    switch (voc[i].Type) 
    { 
     case PdfVisualObjectType.Image: 
      PdfImageVisualObject ivo = voc[i] as PdfImageVisualObject; 
      // Examine the image object 
      // ... 
      break; 
     case PdfVisualObjectType.Text: 
      PdfTextVisualObject tvo = voc[i] as PdfTextVisualObject; 
      // Examine the text object 
      // ... 
      break; 
     case PdfVisualObjectType.Path: 
      PdfPathVisualObject pvo = voc[i] as PdfPathVisualObject; 
      // Examine the path object 
      // ... 
      break; 
    } 
} 

免責聲明在頁面上的位置和大小,筆和/或刷信息:我爲開發該產品的公司工作。