我有一個文件,其中包含損壞的XML,在我想擺脫的行尾有一些垃圾字符。這些垃圾字符不允許我使用Python的XML解析器。示例:刪除行中的垃圾字符/ python中強大的XML解析器
<request><pair><name>q</name><value><![CDATA[LOL]]></value></pair><pair><name>start</name><value>1</value></pair></request>�J I�i�Y�Y��'z�3�u�J�5��}���#Q/k;!�ˑ�9Q){_������ŐF
<request><pair><name>q</name><value><![CDATA[LOL2]]></value></pair><pair><name>start</name><value>1</value></pair></request>4/lIT�l��'�c�Oֲ�{�;��_?��(>͏Y�mP��
如何在</request>
之後刪除垃圾字符?換句話說,如何刪除</request>
和<request>
之間的字符串?
請注意,從<request>
到</request>
僅僅是一個行,以便
代碼:
awk '/<request>/ , /<\/request>/' test.txt
不起作用。
我的目的是在名稱爲「q」(LOL和LOL2)的情況下提取值。因此,如果這可以輕鬆完成,我不會爲刪除垃圾角色而煩惱。
謝謝你的時間。
爲什麼不是亂碼解析XML先篩選? – 2012-01-05 11:42:18
如何過濾?我無法更改打印此XML的模塊。所以我擁有的是一個帶有垃圾字符的文件。 – 2012-01-05 11:43:44