2017-08-04 189 views
-2

我不想使用Java提取發票號,發票日期,稅額和發票價格。發票被掃描並保存爲PDF。有沒有人知道這個相對簡單的可能性?從掃描的發票中提取發票號碼,發票日期等pdf(Java)

+0

是的,它是可能的:對 – xander

+0

嗯......也許。這取決於PDF。然而,讓生成發票的程序也以另一種格式發送細節的確會好得多(也更簡單)。 –

回答

1

完全有可能。根據多少努力,你願意花,你打算什麼上下文,你可以做至少兩件事情:

  • 使用iText7核心,從您的PDF文件中提取文本,然後用正表達式在該文本中查找內容

  • 使用pfd2Data(iText7的附件)將發票(或其他pdf文檔)與模板文檔進行匹配。如果匹配成功,pdf2Data將生成一個xml文件,其中包含pdf中的所有數據(您在模板中指定的文件)。從xml數據源提取數據應該很簡單。

http://developers.itextpdf.com/content/best-itext-questions-stackoverview/content-parsing-extraction-and-redaction-text/itext7-how-read-text-specific-position

http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates