1
我保存在一個XML文件中鳴叫:閱讀CDATA從XML文件BeautifulSoup
<tweet>
<tweetid>142389495503925248</tweetid>
<user>ccifuentes</user>
<content><![CDATA[Salgo de #VeoTV , que día más largoooooo...]]></content>
<date>2011-12-02T00:47:55</date>
<lang>es</lang>
<sentiments>
<polarity><value>NONE</value><type>AGREEMENT</type></polarity>
</sentiments>
<topics>
<topic>otros</topic>
</topics>
</tweet>
分析這些,我通過
soup = BeautifulSoup(xml, "lxml")
其中XML是原始的XML創建BeautifulSoup實例文件。要訪問一個單一的鳴叫我這樣做:
tweets = soup.find_all('tweet')
for tw in tweets:
print(tw)
break
這導致
<tweet>
<tweetid>142389495503925248</tweetid>
<user>ccifuentes</user>
<content></content>
<date>2011-12-02T00:47:55</date>
<lang>es</lang>
<sentiments>
<polarity><value>NONE</value><type>AGREEMENT</type></polarity>
</sentiments>
<topics>
<topic>otros</topic>
</topics>
</tweet>
需要注意的是,當我打印的第一鳴叫CDATA部分省略。對我來說這很重要,我該怎麼做?
乾杯,解析器之間的主要區別是什麼? –
@Vladimir Vargas不同的解析器在數據類型的某些部分中的行爲不同,在大多數情況下,它們都是相同的。 –
是的,由於時間限制我無法接受它。 –