0
我目前正在嘗試提取信息,例如來自商業文件的發件人或收件人如賬單。這些文檔是用ocr軟件處理成xml文件的,所以它們用格式化特徵進行了註釋。我想通過使用發件人和收件人等功能手動添加一個類似的文檔來提取新文檔中的特定信息。信息提取 - 商業文檔
所以我的問題是,如果有一個學習或匹配算法,能夠提取特定的數據通過比較只有一個或兩個類似文件的例子。如果是的話:是否有某種Java框架能夠做到這一點?
此致謝天謝地
maggu
你想如何匹配?如果這兩份文件沒有共同點呢?當有一份文件時,我們是否在尋找一個完美匹配? – Mark
讓我們假設文檔是相似的,例如基於相同模板的兩張賬單。在註釋第一個之後,我想提取第二個,第三個......等等的信息。 – maggu