2017-10-05 67 views
0

我有許多不同格式的掃描pdf與許多不同的字段。將其視爲已掃描的發票。我需要從掃描的pdf中提取信息並輸出字段和每個字段中的文本。用於從PDF中提取數據的自然語言處理

我有一個OCR工具,可以很好地提取原始格式中的所有文本。我以某種方式使用NLP必須能夠從原始文本中提取字段和它們的值。由於發票格式很多,在這種情況下使用OCR不是一種選擇。 NLP如何幫助我解決這個問題?

回答

0

大多數NLP工具旨在從語句中提取數據。如果您沒有標點符號,則可能無法正常工作。如果您正在使用NLU服務,例如https://mynlu.com,您還需要提供常用短語的示例以及其中包含的相關數據(實體)的位置。如果你可以把它分解成語句,那麼像myNLU或其他NLU服務(LUIS,Watson等)可以在10分鐘內讓你離開<。