我正在尋找一種方法將數據從Word文件中提取/抓取到數據庫中。我們的公司程序與MS Word文件中記錄的客戶會議紀要有關,主要歸因於歷史和慣性。從MS Word中提取數據
我希望能夠將這些會議記錄中的操作項目拉到數據庫中,以便我們可以從Web界面訪問它們,將它們轉換爲任務並在完成時更新它們。
這是做到這一點的最好辦法:創建CSV,然後上傳到數據庫從內字
- VBA宏?
- VBA宏與Word連接到DB(如何從VBA連接到MySQL?)
- Python腳本通過win32com然後上傳到數據庫?
最後一個對我來說很吸引人,因爲使用Django構建了web界面,但是我從來沒有使用過win32com或者嘗試過從python腳本化腳本。
編輯:我已經開始使用VBA提取文本,因爲它使它更容易處理Word對象模型。我遇到了一個問題 - 所有的文本都在表格中,當我從我想要的CELLS中拉出字符串時,每個字符串的末尾都會出現一個奇怪的小方塊字符。我的代碼如下所示:
sFile = "D:\temp\output.txt"
fnum = FreeFile
Open sFile For Output As #fnum
num_rows = Application.ActiveDocument.Tables(2).Rows.Count
For n = 1 To num_rows
Descr = Application.ActiveDocument.Tables(2).Cell(n, 2).Range.Text
Assign = Application.ActiveDocument.Tables(2).Cell(n, 3).Range.Text
Target = Application.ActiveDocument.Tables(2).Cell(n, 4).Range.Text
If Target = "" Then
ExportText = ""
Else
ExportText = Descr & Chr(44) & Assign & Chr(44) & _
Target & Chr(13) & Chr(10)
Print #fnum, ExportText
End If
Next n
Close #fnum
小小的控制字符框是怎麼回事? Word中是否有某種字符代碼?
「在python中從MS word文件中提取文本」的問題是關於在linux環境中工作的。除了cygwin之外,在Windows下不提供像antiword這樣的工具,而這個海報願意做COM的COM腳本。 – 2009-02-03 04:00:24
如果你沒有什麼好說的話...... 對這個問題的一些較高的投票答案根本不是linux特有的。我想你錯過了那些。 – 2009-02-04 05:16:05