問題顯示XML解析

2016-08-04 133 views 0 likes

後我解析具有以下結構的XML文檔：問題顯示XML解析

<Distlist> 
    <DistDoc> 
    <Metadata></Metadata> 
    <ArchiveDoc> 
     <Article> 
      <Para>aaaaaa</Para> 
      <Para>bbbbbb</Para> 
      <Para>cccccc</Para> 
     </Article> 
    </ArchiveDoc> 
    </DistDoc> 
</Distlist>

我在每個文件5000篇文章，每篇文章的全文被分成段落。我提取與下面的代碼文章的全文（我用LXML）：

doc = etree.parse(path) #Parse file 
root=doc.getroot() #Get the root 

#Store full texts in list 
full_texts = [] 
for child in root: 
    full_texts.append("\n\n".join(child[1][0].itertext()))

當我看到是這樣的輸出：

aaaaaaabbbbbbcccc

雖然我的期望輸出（雙行打破）應該是：

aaaaaa 

bbbbbb 

cccccc

段落之間沒有分隔時很難閱讀。我究竟做錯了什麼？

來源

2016-08-04 pawelty

回答

遍歷article節點和連接para節點的文本：

for article in root.xpath(".//Article"): 
    texts = article.xpath(".//Para/text()") 
    print("\n".join(texts))

來源

2016-08-04 16:12:51 alecxe

它的工作，非常感謝！ – pawelty

相關問題

11. 解析XML問題
12. XML解析問題
13. 使用AQXMLParser解析xml時顯示tableView更新的問題StreamingParser
14. Golang XML解析問題
15. PHP XML子解析問題
16. 問題解析jquery XML
17. Java XML解析問題
18. xml解析問題php
19. XML解析器問題
20. dom xml解析問題
21. Python XML解析問題
22. Python的XML解析問題
23. JAXB XML解析的問題
24. JAXB XML解析問題
25. Java的XML解析問題
26. Python的XML解析問題
27. Android的XML解析問題
28. iPhone XML解析問題
29. jQuery的XML解析問題
30. XML解析器問題