從數百個Word文檔中刮取結構化信息？

我的任務是從數百個人類可讀文檔（主要是MS Word）中提取一些結構化信息並將其放入數據庫中。數據幾乎嵌入整個文檔的表格中，但表格之間有很多文本，儘管文檔結構非常相似，但有一些差異。文檔經常更改（我們每隔幾個月會更新一次版本）從數百個Word文檔中刮取結構化信息？

到目前爲止，我能想到的唯一可行的選擇是手動去掉所有文檔並插入/更新信息，但我認爲我會問在這裏如果有人認爲有可能以某種方式刮掉文件？

哦，並且數據必須是相當正確的...

2010-11-17 Andreas

這些文件的格式是什麼？ .doc，.docx，...？ – 2010-11-17 12:46:04

@ 0xA3主要是doc和docx的混合，但也有一些pdfs – Andreas 2010-11-17 19:59:21

暫時擱置PDFs，是否有助於將所有Word文檔中的所有表格複製到單個文檔中？ – JasonPlutext 2010-11-17 20:08:08

我使用converter from RTF to FO做類似的工作（不表雖然）。

您已經將文檔轉換爲RTF，然後轉換爲FO，這爲您提供了一個很好的文檔XML結構。然後，您可以輕鬆解析並抓取數據。

2010-11-17 09:41:44 CharlesB

回答