我有幾個.docx文件,其中包含大量相似的文本塊:包含300多個新聞稿的docx文件,每個新聞稿1-2頁,需要分成單獨的文本文件。說明文章之間差異的唯一一致方式是在兩篇文章之間始終存在分頁符。如何使用docx中的python-docx標識分頁符
不過,我不知道如何轉換包含Word文檔文本時發現分頁符和分頁信息在轉換後會丟失使用我當前的腳本
我想知道如何保存將.docx文件轉換爲.txt時出現HARD分頁符。對我來說沒關係他們在文本文件中的樣子,只要它們在稍後掃描文本文件時具有唯一標識
以下是我用來將docx文件轉換爲txt的腳本:
def docx2txt(file_path):
document = opendocx(file_path)
text_file = open("%s.txt" % file_path[:len(file_path)-5], "w")
paratextlist = getdocumenttext(document)
newparatextlist = []
for paratext in paratextlist:
newparatextlist.append(paratext.encode("utf-8"))
text_file.write('\n\n'.join(newparatextlist))
text_file.close()
開箱即用python-docx可能沒有辦法,但將示例docx文件另存爲.zip文件(以顯示由該文檔構成的原始.xml文件),然後戳開直到你看到看起來像分頁符的東西。然後,您可以將函數添加到您的python-docx安裝中,以便在讀取文件時處理這些函數。 python-docx源文件有詳細記錄,並且在 – wnnmaw
之間稍微戳一下就不太複雜了。即使想要使事情變得更復雜,您也可以將docx保存爲HTML,然後將所有內容分解到分頁符上。 – Bioto