XML樣式表PI的語法在the spec中給出,所以如果你想正確地做,只需要爲該語法編寫解析器。由於語言實際上是規則的,因此可以使用正則表達式正確解析它。最大的難題可能是由於XML規範不需要字符引用或預定義的實體引用在處理指令中被識別,因此您可能有責任自行處理這些引用。
至於你應該怎麼做,這取決於你在什麼環境下工作。作爲一個例子,這裏是一個XQuery函數,它執行這個工作並返回一個由僞屬性創建的元素列表處理指令;如果PI與規範中給出的語法不匹配,則返回名爲error
的單個元素。
declare function bmt:parse-sspi($s as xs:string)
as element()* {
if (bmt:check-sspi($s)) then
let $s1 := substring-after($s,"<?xml-stylesheet"),
$s2 := substring-before($s1,"?>")
return bmt:parse-pseudoatts($s2)
else <error/>
};
該函數把手拿開解析所述僞屬性,其解析斷開每個呼叫中的一個屬性值對一個單獨的遞歸函數的實際工作:
declare function bmt:parse-pseudoatts($s as xs:string)
as element()* {
(: We know that $s is a syntactically legal sequence
of pseudo-attribute value specifications. So we
can get by with simpler patterns than we would
otherwise need.
:)
let $s1 := replace($s,"^\s+","")
return if ($s1 = "") then() else
let $s2 := substring-before($s, '='),
$Name := normalize-space($s2),
$s3 := substring-after($s, '='),
$s4 := replace($s3,"^\s+",""),
$Val := if (starts-with($s4,'"')) then
substring-before(
substring($s4,2),
'"')
else if (starts-with($s4,"'")) then
substring-before(
substring($s4,2),
"'")
else <ERROR/>,
$sRest := if (starts-with($s4,'"')) then
substring-after(
substring($s4,2),
'"')
else if (starts-with($s4,"'")) then
substring-after(
substring($s4,2),
"'")
else ""
return (element {$Name} { $Val },
bmt:parse-pseudoatts($sRest))
};
作爲評論表明(與正如你所看到的那樣),這兩方面都從預先知道PI實際上是合法的而受益。所以我們可以通過從字符串中的第一個「=」之前的空白字符中去除空格來解析僞屬性名稱,依此類推。
正確性的保證由一個單獨的check-sspi
函數給出,該函數系統地構造一個正則表達式,以便於比較函數與規範中的語法,以檢查該函數是否正確。
declare function bmt:check-sspi($s as xs:string)
as xs:boolean {
let $pio := "<\?",
$kw := "xml-stylesheet",
$pic := "\?>",
$S := "\s+",
$optS := "\s*",
$Name := "\i\c*",
$CharRef := "&#[0-9]+;|&#x[0-9a-fA-F]+;",
$PredefinedEntityRef := concat("&amp;",
"|&lt;",
"|&gt;",
"|&quot;",
"|&apos;"),
$dq := '"',
$sq := "'",
$dqstring := concat($dq,
"(",
"[^", $dq, "<&]",
"|",
"$CharRef",
"|",
"$PredefinedEntityRef",
")*",
$dq),
$sqstring := concat($sq,
"(",
"[^",$sq,"<&]",
"|",
"$CharRef",
"|",
"$PredefinedEntityRef",
")*",
$sq),
$psAttVal := concat("(",$dqstring,"|",$sqstring,")"),
$pseudoAtt := concat("(",
$Name,
$optS, "=", $optS,
$psAttVal,
")"),
$sspi := concat($pio,
$kw,
"(", $S, $pseudoAtt, ")*",
$optS,
$pic),
$sspi2 := concat("^", $sspi, "$")
return if (matches($s,$sspi2)) then true() else false()
};
對於測試字符串
<?xml-stylesheet foo="bar"
href="http://www.w3.org/2008/09/xsd.xsl"
type='text/xsl'
?>
頂級parse-sspi
函數返回
<foo>bar</foo>
<href>http://www.w3.org/2008/09/xsd.xsl</href>
<type>text/xsl</type>
這些功能可能會略有更緊湊,如果我們只是做了一個單Perl-解析風格正則表達式。有些人可能會發現這樣一種緊湊的形式更自然,更容易遵循,有些人會喜歡這裏給出的不太簡潔的形式。
非常全面的答案 - 但是我有一個有趣的問題。將xml樣式表PI的值嵌入到假XML標記中 '並將其解析爲單獨的XML文檔,以便將標記的屬性作爲xml-stylesheet PI的屬性讀取,具有相同的結果? –
是的,這將是一種方法;如果你看看這兩個規範,你可以看到'xml-stylesheet'上的僞屬性的語法與開始時屬性的語法是相同的(模實體和字符引用識別),或者唯一的標籤。 –
完美!感謝這個非常全面的答案。 –