我有一些XML:beautifulsoup的findall
<article>
<uselesstag></uslesstag>
<topic>oil, gas</topic>
<body>body text</body>
</article>
<article>
<uselesstag></uslesstag>
<topic>food</topic>
<body>body text</body>
</article>
<article>
<uselesstag></uslesstag>
<topic>cars</topic>
<body>body text</body>
</article>
有許多,許多無用的標籤。 我想使用beautifulsoup來收集body標籤中的所有文本及其相關的主題文本以創建一些新的xml。
我是新來的蟒蛇,但我懷疑某種形式的
import arff
from xml.etree import ElementTree
import re
from StringIO import StringIO
import BeautifulSoup
from BeautifulSoup import BeautifulSoup
totstring=""
with open('reut2-000.sgm', 'r') as inF:
for line in inF:
string=re.sub("[^0-9a-zA-Z<>/\s=!-\"\"]+","", line)
totstring+=string
soup = BeautifulSoup(totstring)
body = soup.find("body")
for anchor in soup.findAll('body'):
#Stick body and its topics in an associated array?
file.close
會工作。
1)我該怎麼做? 2)我應該添加一個根節點到XML?否則它是不正確的XML?
非常感謝
編輯:
我想落得是:
<article>
<topic>oil, gas</topic>
<body>body text</body>
</article>
<article>
<topic>food</topic>
<body>body text</body>
</article>
<article>
<topic>cars</topic>
<body>body text</body>
</article>
有許多,許多無用的標籤。
所以,你要得到一個標籤,B,C的含量或得到的所有標籤內容,忽略標籤d,E,F? –
是的,我想要2種標籤(正文和主題),並忽略其他東西(日期,時間等) –