我已經花了今天研究這個的最好的部分,似乎有大量的X到PDF轉換器,但沒有很多庫(特別兼容.Net核心)用於從pdf中提取文本和圖像。從Asp.Net核心提取PDF文件中的圖像和文本
我對開源(首選)和商業圖書館都很感興趣,寧願不去node.js route(雖然我可能不得不作爲最後的手段)。建議和建議是最受歡迎的。
我已經花了今天研究這個的最好的部分,似乎有大量的X到PDF轉換器,但沒有很多庫(特別兼容.Net核心)用於從pdf中提取文本和圖像。從Asp.Net核心提取PDF文件中的圖像和文本
我對開源(首選)和商業圖書館都很感興趣,寧願不去node.js route(雖然我可能不得不作爲最後的手段)。建議和建議是最受歡迎的。
Docotic.Pdf library擁有.NET Core的版本。這是一個商業圖書館,我是其中一位開發人員。
該庫可以從PDF中提取文本和圖像,並執行許多其他操作。這裏是鏈接到相關的示例代碼:
更先進的方式來獲取信息提供過:
XFINIUM.PDF也支持.NET Core。
下面的代碼顯示瞭如何提取頁面對象並檢查它們。這些對象包括有關其用於繪製對象,文本對象,圖像數據和用於圖像對象信息的文本內容等
PdfFixedDocument document = new PdfFixedDocument(input);
PdfContentExtractor ce = new PdfContentExtractor(document.Pages[0]);
PdfVisualObjectCollection voc = ce.ExtractVisualObjects(false);
for (int i = 0; i < voc.Count; i++)
{
switch (voc[i].Type)
{
case PdfVisualObjectType.Image:
PdfImageVisualObject ivo = voc[i] as PdfImageVisualObject;
// Examine the image object
// ...
break;
case PdfVisualObjectType.Text:
PdfTextVisualObject tvo = voc[i] as PdfTextVisualObject;
// Examine the text object
// ...
break;
case PdfVisualObjectType.Path:
PdfPathVisualObject pvo = voc[i] as PdfPathVisualObject;
// Examine the path object
// ...
break;
}
}
免責聲明在頁面上的位置和大小,筆和/或刷信息:我爲開發該產品的公司工作。