2012-05-23 28 views
0

我實際上有一個帶有html的字符串。我想用xmlparser解析它。 pb是我的字符串的一些標籤不正確。特別是<img />標籤。所以我需要更換這些標籤,因爲它錯過了最後的/。我想檢索所有img標籤,並在最後添加/。 爲此,我需要在我的文本中查找所有<img,直到下一個>/>替換爲了解析我的字符串。如何在Python中使用起始字符和結束字符獲取字符串的一部分

任何人都可以幫到我嗎?

謝謝

+2

XML!= HTML。你有沒有考慮過使用'BeautifulSoup'或'lxml.html'? – FatalError

+0

是的,但它應該工作。我只想替換字符串。可能嗎? – kschaeffler

+0

Karl:http://stackoverflow.com/a/1732454/106302 – jnylen

回答

3

你在問各種各樣的麻煩。嘗試一個更適合該任務的庫。它看起來像BeautifulSoup可能是你想要的。

如果您在使用xmlparser時已經死了,那麼您可能需要先使用BeautifulSoup清理HTML。請參閱:How do I fix wrongly nested/unclosed HTML tags?

相關問題