信息提取 - 商業文檔

我目前正在嘗試提取信息，例如來自商業文件的發件人或收件人如賬單。這些文檔是用ocr軟件處理成xml文件的，所以它們用格式化特徵進行了註釋。我想通過使用發件人和收件人等功能手動添加一個類似的文檔來提取新文檔中的特定信息。信息提取 - 商業文檔

所以我的問題是，如果有一個學習或匹配算法，能夠提取特定的數據通過比較只有一個或兩個類似文件的例子。如果是的話：是否有某種Java框架能夠做到這一點？

此致謝天謝地

maggu

2013-06-22 maggu

你想如何匹配？如果這兩份文件沒有共同點呢？當有一份文件時，我們是否在尋找一個完美匹配？ – Mark

讓我們假設文檔是相似的，例如基於相同模板的兩張賬單。在註釋第一個之後，我想提取第二個，第三個......等等的信息。 – maggu

如果XML結構始終是相同的（使用相同的模板）：

只需保存該信息所在的位置，因此選擇節點的XML父節點你知道信息的路徑。不應該是一個問題 - 微不足道的任務。

如果你要搜索的信息：

它可以通過創建特定的特徵提取規則的工作，然後使用該功能來訓練支持向量機，用於檢測的信息所在的區域。

但這遠非微不足道，肯定需要超過一兩個培訓文件。

2013-06-24 15:26:51

回答