2010-11-17 51 views
3

我的任務是從數百個人類可讀文檔(主要是MS Word)中提取一些結構化信息並將其放入數據庫中。數據幾乎嵌入整個文檔的表格中,但表格之間有很多文本,儘管文檔結構非常相似,但有一些差異。文檔經常更改(我們每隔幾個月會更新一次版本)從數百個Word文檔中刮取結構化信息?

到目前爲止,我能想到的唯一可行的選擇是手動去掉所有文檔並插入/更新信息,但我認爲我會問在這裏如果有人認爲有可能以某種方式刮掉文件?

哦,並且數據必須是相當正確的...

+0

這些文件的格式是什麼? .doc,.docx,...? – 2010-11-17 12:46:04

+0

@ 0xA3主要是doc和docx的混合,但也有一些pdfs – Andreas 2010-11-17 19:59:21

+0

暫時擱置PDFs,是否有助於將所有Word文檔中的所有表格複製到單個文檔中? – JasonPlutext 2010-11-17 20:08:08

回答

2

我使用converter from RTF to FO做類似的工作(不表雖然)。

您已經將文檔轉換爲RTF,然後轉換爲FO,這爲您提供了一個很好的文檔XML結構。然後,您可以輕鬆解析並抓取數據。