3
我的任務是從數百個人類可讀文檔(主要是MS Word)中提取一些結構化信息並將其放入數據庫中。數據幾乎嵌入整個文檔的表格中,但表格之間有很多文本,儘管文檔結構非常相似,但有一些差異。文檔經常更改(我們每隔幾個月會更新一次版本)從數百個Word文檔中刮取結構化信息?
到目前爲止,我能想到的唯一可行的選擇是手動去掉所有文檔並插入/更新信息,但我認爲我會問在這裏如果有人認爲有可能以某種方式刮掉文件?
哦,並且數據必須是相當正確的...
這些文件的格式是什麼? .doc,.docx,...? – 2010-11-17 12:46:04
@ 0xA3主要是doc和docx的混合,但也有一些pdfs – Andreas 2010-11-17 19:59:21
暫時擱置PDFs,是否有助於將所有Word文檔中的所有表格複製到單個文檔中? – JasonPlutext 2010-11-17 20:08:08