我在刪除表格後從.docx中提取文本時遇到了問題。 我正在處理的docx文件包含很多我想在提取文本之前擺脫的表格。 我首先使用docx2html將docx文件轉換爲html,然後使用BeautifulSoup刪除表格標籤並提取文本。如何有效地從docx/xml中刪除表格並提取文本
from docx2html import convert
from bs4 import BeautifulSoup
...
temp = convert(FileToConvert)
soup = BeautifulSoup(temp)
for i in range(0,len(soup('table'))):
soup.table.decompose()
Text = soup.get_text()
雖然這個過程的工作,產生了我所需要的,有一些效率問題與docx2html.convert()。由於.docx文件實際上是.xml文件,因此可能會跳過將docx轉換爲html的過程,並在刪除表格後從xml中提取文本。
你說得對,關於python-docx。它確實負責從.docx文件中提取文本。在將docx傳遞給python-docx之後,將生成一個lxml.etree.Element,它可以使用lxml解析器進行操作。 –