2010-01-12 127 views
2

我的XML文件看起來是這樣的:如何使用Perl查找和替換XML中的文本?

<doc> 
    <RU1> 
     <conf> 
       <prop name="a" val="http://a.org/a.html> 
     </conf>  
    </RU1> 
    <RAU1> 
    <conf> 
       <prop name="a" val="http://a.org/a.html> 
     </conf> 
    </RAU1> 
    <RU2> 
    <conf> 
       <prop name="a" val="http://a.org/a.html> 
     </conf> 
    </RU2> 
</doc> 

我想在道具字段的值來代替「a.org」,其下具有RU在Perl啓動所有父標籤,以「b.com 「。我如何獲得更改爲一個XML文件?

+6

您的XML格式錯誤。值缺少引號,並且prop標籤未關閉。這是一個錯誤,還是你想解析格式不正確的XML? – Schwern

回答

8

假設您的XML格式正確(不是),您可以使用a number of CPAN modules作爲該作業。大部分將涉及解析文檔,找到你的位XPath查詢,並再次打印文檔。

這是XML :: Twig的一個例子。我必須修復XML才能解析它。

#!/usr/bin/perl 

use strict; 
use warnings; 

use XML::Twig; 

my $twig = XML::Twig->new(
    twig_handlers => { 
     'conf/prop' => sub { $_->{att}{val} =~ s/a.org/b.org/; } 
    }, 
    pretty_print => "indented" 
); 
$twig->parse(join "", <DATA>); 

$twig->print; 


__END__ 
<foo> 
<RU1> 
    <conf> 
      <prop name="a" val="http://a.org/a.html" /> 
    </conf> 
</RU1> 
<RAU1> 
    <conf> 
      <prop name="a" val="http://a.org/a.html" /> 
    </conf> 
</RAU1> 
<RU2> 
<conf> 
      <prop name="a" val="http://a.org/a.html" /> 
    </conf> 
</RU2> 
</foo> 
+0

我同意你的回答,但應該注意的是,涉及解析,替換和序列化的每一個操作都會丟失東西:實體被擴展,空白可以被重新排列,編碼可能會改變等等。如果你手動編輯你的XML,它可以是一個大問題。 – bortzmeyer

4

從CPAN中獲取XML解析器並使用它。他們在那裏是有原因的。

一旦你這樣做了,它就是一些相當簡單的XPath表達式來獲得你想要的節點,然後對特定屬性本身進行一些快速文本替換。

3

使用下面的樣式表

<?xml version="1.0"?> 

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> 
    <xsl:template match="node()|@*"> 
    <xsl:copy> 
     <xsl:apply-templates select="@*"/> 
     <xsl:apply-templates/> 
    </xsl:copy> 
    </xsl:template> 

    <xsl:template match="//*[starts-with(local-name(), 'RU')]//prop/@val"> 
    <xsl:call-template name="replace-aorg" /> 
    </xsl:template> 

    <xsl:template name="replace-aorg"> 
    <xsl:param name="text" select="." /> 
    <xsl:choose> 
     <xsl:when test="contains($text, 'a.org')"> 
     <xsl:value-of select="substring-before($text, 'a.org')"/> 
     <xsl:text>b.com</xsl:text> 
     <xsl:call-template name="replace-aorg"> 
      <xsl:with-param name="text" select="substring-after($text, 'a.org')"/> 
     </xsl:call-template> 
     </xsl:when> 
     <xsl:otherwise> 
     <xsl:value-of select="$text"/> 
     </xsl:otherwise> 
    </xsl:choose> 
    </xsl:template> 
</xsl:stylesheet> 

和調整你的XML文檔

<doc> 
<RU1> 
    <conf> 
      <prop name="a" val="http://a.org/a.html" /> 
    </conf>  
</RU1> 
<RAU1> 
<conf> 
      <prop name="a" val="http://a.org/a.html" /> 
    </conf> 
</RAU1> 
<RU2> 
<conf> 
      <prop name="a" val="http://a.org/a.html" /> 
    </conf> 
</RU2> 
</doc> 

輸出:

$ xsltproc sty.xml doc.xml 
<?xml version="1.0"?> 
<doc> 
<RU1> 
    <conf> 
      <prop name="a">http://b.com/a.html</prop> 
    </conf> 
</RU1> 
<RAU1> 
<conf> 
      <prop name="a" val="http://a.org/a.html"/> 
    </conf> 
</RAU1> 
<RU2> 
<conf> 
      <prop name="a">http://b.com/a.html</prop> 
    </conf> 
</RU2> 
</doc> 

所以在Perl,這將是爲一些諸如

system("xsltproc", "style.xsl", "doc.xml") == 0 
    or warn "$0: xsltproc exited " . ($? >> 8); 
+7

它很簡單,便宜! :P – Schwern

+0

不要討厭playa ... :-) –

+5

至少Perl部分簡單而簡潔。 – mirod