我有一個XML文件,其中包含100個文檔。每個塊如下所示:Python中的XML解析幫助
<DOC>
<DOCNO> FR940104-2-00001 </DOCNO>
<PARENT> FR940104-2-00001 </PARENT>
<TEXT>
<!-- PJG FTAG 4703 -->
<!-- PJG STAG 4703 -->
<!-- PJG ITAG l=90 g=1 f=1 -->
<!-- PJG /ITAG -->
<!-- PJG ITAG l=90 g=1 f=4 -->
Federal Register
<!-- PJG /ITAG -->
<!-- PJG ITAG l=90 g=1 f=1 -->
/Vol. 59, No. 2/Tuesday, January 4, 1994/Notices
<!-- PJG 0012 frnewline -->
<!-- PJG /ITAG -->
<!-- PJG ITAG l=01 g=1 f=1 -->
Vol. 59, No. 2
<!-- PJG 0012 frnewline -->
<!-- PJG /ITAG -->
<!-- PJG ITAG l=02 g=1 f=1 -->
Tuesday, January 4, 1994
<!-- PJG 0012 frnewline -->
<!-- PJG 0012 frnewline -->
<!-- PJG /ITAG -->
<!-- PJG /STAG -->
<!-- PJG /FTAG -->
</TEXT>
</DOC>
我想將此XML文檔加載到字典Text
。鍵爲DOCNO &作爲文本在標籤內的值。此外,這個文本不應該包含所有的評論。示例Text['FR940104-2-00001']
必須包含Federal Register/Vol. 59, No. 2/Tuesday, January 4, 1994/Notices Vol. 59, No. 2 Tuesday, January 4, 1994
。這是我寫的代碼。
L = doc.getElementsByTagName("DOCNO")
for node2 in L:
for node3 in node2.childNodes:
if node3.nodeType == Node.TEXT_NODE:
docno.append(node3.data);
#print node2.data
L = doc.getElementsByTagName("TEXT")
i = 0
for node2 in L:
for node3 in node2.childNodes:
if node3.nodeType == Node.TEXT_NODE:
Text[docno[i]] = node3.data
i = i+1
出人意料的是,我的代碼我得到的文本[「FR940104-2-00001」]作爲u'\n'
怎麼來的?如何得到我想要的東西
你的問題不是很清楚 – t00ny 2010-09-25 23:36:20
@ t00ny:改進了我的問題。 – pecker 2010-09-25 23:42:05