我正在使用安裝了Windows 7和python 3.3的計算機。 在我的組織中,我們有數千個沒有組織的文檔。 我想創建一個打開doc/docx文件的程序,搜索文本中的某些關鍵字,然後重新排列文檔。 我正在尋找一種方法來搜索某個單詞文件(doc/docx)的文本,它必須在Windows上,它必須能夠搜索doc和docx。從doc和docx中獲取文本
任何想法?
我正在使用安裝了Windows 7和python 3.3的計算機。 在我的組織中,我們有數千個沒有組織的文檔。 我想創建一個打開doc/docx文件的程序,搜索文本中的某些關鍵字,然後重新排列文檔。 我正在尋找一種方法來搜索某個單詞文件(doc/docx)的文本,它必須在Windows上,它必須能夠搜索doc和docx。從doc和docx中獲取文本
任何想法?
.docx文檔是OpenXML格式的Zip存檔文件:您首先需要對其進行解壓縮。
在這之後,你可以運行:
# Import the module
from docx import *
# Open the .docx file
document = opendocx('A document.docx')
# Search returns true if found
search(document,'your search string')
人們可以使用textract庫。它要同時兼顧「DOC」的還有「DOCX」
import textract
text = textract.process("path/to/file.extension")
你甚至可以用「antiword」(命令和apt-get安裝antiword),然後轉換成DOC首先進入DOCX,然後通過docx2txt閱讀。
antiword filename.doc> filename.docx 最終,後端的textract正在使用反義詞。
我有成千上萬的文件,我無法解壓每一個他們,這是不實際的。 –
這可能有幫助。 https://python-docx.readthedocs.io/en/latest/ – Angrywasabi
但是它沒有處理doc :-( –