2017-04-25 123 views
-2

我正在使用安裝了Windows 7和python 3.3的計算機。 在我的組織中,我們有數千個沒有組織的文檔。 我想創建一個打開doc/docx文件的程序,搜索文本中的某些關鍵字,然後重新排列文檔。 我正在尋找一種方法來搜索某個單詞文件(doc/docx)的文本,它必須在Windows上,它必須能夠搜索doc和docx。從doc和docx中獲取文本

任何想法?

回答

0

.docx文檔是OpenXML格式的Zip存檔文件:您首先需要對其進行解壓縮。

在這之後,你可以運行:

# Import the module 
from docx import * 

# Open the .docx file 
document = opendocx('A document.docx') 

# Search returns true if found  
search(document,'your search string') 
+0

我有成千上萬的文件,我無法解壓每一個他們,這是不實際的。 –

+0

這可能有幫助。 https://python-docx.readthedocs.io/en/latest/ – Angrywasabi

+0

但是它沒有處理doc :-( –

0

人們可以使用textract庫。它要同時兼顧「DOC」的還有「DOCX」

import textract 
text = textract.process("path/to/file.extension") 

你甚至可以用「antiword」(命令和apt-get安裝antiword),然後轉換成DOC首先進入DOCX,然後通過docx2txt閱讀。

antiword filename.doc> filename.docx 最終,後端的textract正在使用反義詞。

+0

輝煌,謝謝! –

+0

安裝完成,並在最後失敗...... :-(出現它不能在python 3.3上工作:-( –

+0

你可以發送截圖嗎? – Angrywasabi

相關問題