2011-09-22 48 views
1

我有一個包含數百個「章節」(由標題格式定義)並且目前由單詞索引的300多頁的單詞文檔。每章包含中等數量的文本(通常少於一頁),也可能包含相關的一兩個圖片。我想將文檔分成數據庫記錄以供在iPhone程序中使用 - 每章都是由標題,ID#和內容字段組成的記錄。我還沒有決定是否希望圖片是單獨的字段(可能只是包含文件名),或HTML或內容文本中的類似樣式鏈接。無論如何,最終的結果將是我可以顯示一個可搜索的標題表,用戶可以點擊這些標題來提取任何給定的條目。將MS Word文檔章節提取到SQL數據庫記錄?

我現在遇到的困難是從word文檔到數據庫。我怎樣才能最輕鬆地將文檔按章分解成記錄,同時保持圖像關聯?我想在每個章節之間插入一些獨特的字符,保存爲文本格式,然後編寫腳本將文檔解析爲基於該字符的數據庫,但我不確定在這種情況下我可以處理圖形。其他選項?

回答

3

要回答我的問題:

給出一個相當簡單格式化的Word文檔

  1. 將其轉換爲開放式的Office XML文檔

  2. 編寫Python腳本文件解析成一個使用xml.sax python模塊的數據庫。

圖像作爲HTML插入到記錄中,使用Web界面顯示。

+0

你可以接受你自己的答案,它會幫助有同樣問題的人。 –