用於從PDF中提取數據的自然語言處理

我有許多不同格式的掃描pdf與許多不同的字段。將其視爲已掃描的發票。我需要從掃描的pdf中提取信息並輸出字段和每個字段中的文本。用於從PDF中提取數據的自然語言處理

我有一個OCR工具，可以很好地提取原始格式中的所有文本。我以某種方式使用NLP必須能夠從原始文本中提取字段和它們的值。由於發票格式很多，在這種情況下使用OCR不是一種選擇。 NLP如何幫助我解決這個問題？

2017-10-05 rookie

大多數NLP工具旨在從語句中提取數據。如果您沒有標點符號，則可能無法正常工作。如果您正在使用NLU服務，例如https://mynlu.com，您還需要提供常用短語的示例以及其中包含的相關數據（實體）的位置。如果你可以把它分解成語句，那麼像myNLU或其他NLU服務（LUIS，Watson等）可以在10分鐘內讓你離開<。

來源

2017-10-05 17:44:17

用於從PDF中提取數據的自然語言處理

回答

相關問題