我是python中的新成員,需要幫助。 我有一個文件,並希望提取文本到另一個文件。Python從文件中提取數據並寫入另一個
輸入文件看起來是這樣的:
<Datei Kennung="4bc78" Titel="Morgen 1" Bereich="I847YP"> Morgen 1
Here is text, contains numbers and text.
Here is text, contains numbers and text.
Here is text, contains numbers and text.
Here is text, contains numbers and text.
Here is text, contains numbers and text.
</Datei>
<Datei Kennung="469" Titel="Trop Hall W " Bereich="izr"> Trop Hall W
Here is text, contains numbers and text.
Here is text, contains numbers and text.
</Datei>
對於我的文件中第一個區域,我需要爲摩根的1.txt 的文件,其中包含這樣的輸出:
Morgen 1
Here is text, contains numbers and text.
Here is text, contains numbers and text.
Here is text, contains numbers and text.
Here is text, contains numbers and text.
Here is text, contains numbers and text.
我從拿到其他用戶本代碼:
import re
REG_PARSE=re.compile(r'<Datei[^>]*Titel="\s*([^"]*?)\s*"[^>]*>\s*\1\s*(.*?</Datei>',re.dotall)
with open(filename) as infile:
for outfilename, text = REG_PARSE.finditer(infile.read()):
with open('%s.txt'%outfilename,'w') as outf:
outf.write(text)
但它不起作用
使用['lxml.etree'(http://lxml.de/)讀取INFILE,因爲它似乎是XML格式。然後使用普通的[file-io](http://docs.python.org/2/tutorial/inputoutput.html#reading-and-writing-files)寫入另一個文件。此外,你到目前爲止嘗試過什麼? – inspectorG4dget
老兄,請編輯您的問題,而不是發表評論與代碼 – inspectorG4dget
我已經盡我所能將您的代碼添加到您的OP。請確認它是正確的 – inspectorG4dget