0
我想讀取docx文件並將文本添加到列表。 現在我需要列表來包含來自docx文件的行。docx到python列表
例如:
的docx文件:
"Hello, my name is blabla,
I am 30 years old.
I have two kids."
結果:
['Hello, my name is blabla', 'I am 30 years old', 'I have two kids']
我不能得到它的工作。
使用docx2txt
模塊從這裏: github link
只有一個進程的命令,並將其返回所有從的docx文件中的文本。
此外,我想它保留特殊字符,例如":\-\.\,"
哇,我花了這麼多時間試圖弄明白。不知道有splitlines()命令..非常感謝! – Kiper
@Kiper - 感謝你也因爲這個問題,我才知道了解docx2txt模塊。 –
我試圖解析PDF文件,接收pdf文本後,我正在使用相同的splitline()方法。由於某種原因,我在每行的結尾都得到了空格。什麼是擺脫它的最好方法?我的列表看起來像['word1','word2','word3']而不是[word1,word2,word3] – Kiper