解析XML樣式表處理指令

如何正確解析XML樣式表處理指令？據我瞭解，如XML處理指令的值：解析XML樣式表處理指令

<?xml-stylesheet type="application/xsl" src="style.xsl" version="1.0"?>

是：

type="application/xsl" src="style.xsl" version="1.0"

我如何解析成鍵 - 值對的列表？我搜索了一些如何做到這一點的例子，但一直沒有找到。

這裏的關鍵詞是正確 ...我不想只寫一個簡單的正則表達式，可能會在某些情況下失敗，我想確保我解析這完全符合你如何正確解析一個XML樣式表指令。

來源

2012-09-10 Jake Petroules

XML樣式表PI的語法在the spec中給出，所以如果你想正確地做，只需要爲該語法編寫解析器。由於語言實際上是規則的，因此可以使用正則表達式正確解析它。最大的難題可能是由於XML規範不需要字符引用或預定義的實體引用在處理指令中被識別，因此您可能有責任自行處理這些引用。

至於你應該怎麼做，這取決於你在什麼環境下工作。作爲一個例子，這裏是一個XQuery函數，它執行這個工作並返回一個由僞屬性創建的元素列表處理指令;如果PI與規範中給出的語法不匹配，則返回名爲error的單個元素。

declare function bmt:parse-sspi($s as xs:string) 
    as element()* { 

    if (bmt:check-sspi($s)) then 
    let $s1 := substring-after($s,"<?xml-stylesheet"), 
     $s2 := substring-before($s1,"?>") 
    return bmt:parse-pseudoatts($s2) 
    else <error/> 
};

該函數把手拿開解析所述僞屬性，其解析斷開每個呼叫中的一個屬性值對一個單獨的遞歸函數的實際工作：

declare function bmt:parse-pseudoatts($s as xs:string) 
    as element()* { 

    (: We know that $s is a syntactically legal sequence 
    of pseudo-attribute value specifications. So we 
    can get by with simpler patterns than we would 
    otherwise need. 
    :) 

    let $s1 := replace($s,"^\s+","") 
    return if ($s1 = "") then() else 
     let $s2 := substring-before($s, '='), 
      $Name := normalize-space($s2), 
      $s3 := substring-after($s, '='), 
      $s4 := replace($s3,"^\s+",""), 
      $Val := if (starts-with($s4,'"')) then 
         substring-before(
          substring($s4,2), 
          '"') 
        else if (starts-with($s4,"'")) then 
         substring-before(
          substring($s4,2), 
          "'") 
        else <ERROR/>, 
      $sRest := if (starts-with($s4,'"')) then 
         substring-after(
          substring($s4,2), 
          '"') 
        else if (starts-with($s4,"'")) then 
         substring-after(
          substring($s4,2), 
          "'") 
        else "" 

    return (element {$Name} { $Val }, 
      bmt:parse-pseudoatts($sRest)) 
};

作爲評論表明（與正如你所看到的那樣），這兩方面都從預先知道PI實際上是合法的而受益。所以我們可以通過從字符串中的第一個「=」之前的空白字符中去除空格來解析僞屬性名稱，依此類推。

正確性的保證由一個單獨的check-sspi函數給出，該函數系統地構造一個正則表達式，以便於比較函數與規範中的語法，以檢查該函數是否正確。

declare function bmt:check-sspi($s as xs:string) 
    as xs:boolean { 

    let $pio := "<\?", 
     $kw := "xml-stylesheet", 
     $pic := "\?>", 
     $S := "\s+", 
     $optS := "\s*", 
     $Name := "\i\c*", 
     $CharRef := "&amp;#[0-9]+;|&amp;#x[0-9a-fA-F]+;", 
     $PredefinedEntityRef := concat("&amp;amp;", 
            "|&amp;lt;", 
            "|&amp;gt;", 
            "|&amp;quot;", 
            "|&amp;apos;"), 
     $dq := '"', 
     $sq := "'", 
     $dqstring := concat($dq, 
          "(", 
          "[^", $dq, "&lt;&amp;]", 
          "|", 
          "$CharRef", 
          "|", 
          "$PredefinedEntityRef", 
          ")*", 
          $dq), 
     $sqstring := concat($sq, 
          "(", 
          "[^",$sq,"&lt;&amp;]", 
          "|", 
          "$CharRef", 
          "|", 
          "$PredefinedEntityRef", 
          ")*", 
          $sq), 
     $psAttVal := concat("(",$dqstring,"|",$sqstring,")"), 
     $pseudoAtt := concat("(", 
          $Name, 
          $optS, "=", $optS, 
          $psAttVal, 
          ")"), 
     $sspi := concat($pio, 
         $kw, 
         "(", $S, $pseudoAtt, ")*", 
         $optS, 
         $pic), 
     $sspi2 := concat("^", $sspi, "$") 
     return if (matches($s,$sspi2)) then true() else false() 
};

對於測試字符串

<?xml-stylesheet foo="bar" 
     href="http://www.w3.org/2008/09/xsd.xsl" 
     type='text/xsl' 
?>

頂級parse-sspi函數返回

<foo>bar</foo> 
<href>http://www.w3.org/2008/09/xsd.xsl</href> 
<type>text/xsl</type>

這些功能可能會略有更緊湊，如果我們只是做了一個單Perl-解析風格正則表達式。有些人可能會發現這樣一種緊湊的形式更自然，更容易遵循，有些人會喜歡這裏給出的不太簡潔的形式。

來源

2012-09-10 03:57:19

非常全面的答案 - 但是我有一個有趣的問題。將xml樣式表PI的值嵌入到假XML標記中'並將其解析爲單獨的XML文檔，以便將標記的屬性作爲xml-stylesheet PI的屬性讀取，具有相同的結果？ –

是的，這將是一種方法;如果你看看這兩個規範，你可以看到'xml-stylesheet'上的僞屬性的語法與開始時屬性的語法是相同的（模實體和字符引用識別），或者唯一的標籤。 –

完美！感謝這個非常全面的答案。 –

什麼編程語言？

如果您在Java中的時候，你可以在這裏找到一些有用的代碼：

http://grepcode.com/file/repo1.maven.org/maven2/net.sourceforge.saxon/saxon/9.1.0.8/net/sf/saxon/om/ProcInstParser.java

來源

2012-09-10 07:40:06

解析XML樣式表處理指令

回答

相關問題