2013-08-29 143 views
1

我想從xml中獲取正常文本,其中一個字段包含html數據。我無法在template.pls中添加條件向我推薦任何解決方案。從xml使用xslt剝離html標記

<?xml version="1.0" encoding="UTF-8"?> 
<workdetail> 
<field name="summaryText1">&lt;UL style="MARGIN-TOP: 0in" type=disc&gt; 
&lt;LI style="TEXT-ALIGN: justify;MARGIN-BOTTOM: 0pt" class=MsoNormal&gt;&lt;SPAN style="mso-fareast-font-family: 'timesnewroman'; mso-bidi-font-family: calibri; mso-bidi-theme-font: minor-latin; mso-bidi-font-style: italic"&gt;&lt;FONT size=2&gt;Manage the daily activities of the HOD s office.&lt;?xml:namespace prefix = o /&gt;&lt;o:p&gt;&lt;/o:p&gt;&lt;/FONT&gt;&lt;/SPAN&gt;&lt;/LI&gt; 
&lt;LI style="MARGIN-BOTTOM: 0pt" class=MsoNormal&gt;&lt;SPAN style="mso-fareast-font-family: 'timesnewroman'; mso-bidi-font-family: calibri; mso-bidi-theme-font: minor-latin; mso-bidi-font-style: italic"&gt;&lt;FONT size=2&gt;Handle and manage all communication, correspondence and filing of documents. &lt;o:p&gt;&lt;/o:p&gt;&lt;/FONT&gt;&lt;/SPAN&gt;&lt;/LI&gt; 
&lt;LI style="MARGIN-BOTTOM: 0pt" class=MsoNormal&gt;&lt;SPAN style="mso-fareast-font-family: 'timesnewroman'; mso-bidi-font-family: calibri; mso-bidi-theme-font: minor-latin; mso-bidi-font-style: italic"&gt;&lt;FONT size=2&gt;Fix appointments, arrange for meetings, conferences etc.&lt;o:p&gt;&lt;/o:p&gt;&lt;/FONT&gt;&lt;/SPAN&gt;&lt;/LI&gt; 
</workdetail> 

畝XSL文件是

<xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> 
<xsl:output indent="yes" encoding="utf-8"/> 
<xsl:strip-space elements="*"/> 
<xsl:template match="/"> 
<workdetail> 
<xsl:apply-templates select="*" /> 
</workdetail> 
</xsl:template> 
<xsl:template match="*:workdetail"> 
<xsl:variable name="text" select="*:field[starts-with(@name,'summaryText1')]"/> 
     <xsl:choose> 

    <xsl:when test="contains($text, '&lt;')"> 

     <xsl:value-of select="substring-after($text, '&lt;')"/> 



       <xsl:variable name="text" select="substring-after($text, '&gt;')"/> 
    </xsl:when> 

    <xsl:otherwise> 

     <xsl:value-of select="$text"/> 

    </xsl:otherwise> 

</xsl:choose> 
</xsl:stylesheet> 

這之後>標籤返回的一切。我可以傳遞更多的價值在這將只返回文本文件。

+0

請考慮發佈要爲您發佈的XML輸入示例創建的輸出。並且請告訴我們您使用的是哪個XSLT 2.0處理器,例如某些Saxon 9.5版本的http://www.saxonica.com/documentation/index.html#!functions/saxon/parse-html,這可以使解析任務HTML容易。 –

+0

感謝martin for reply.i使用xslt2.0處理器和saxon9pe.jar進行轉換。我的期望輸出是<?xml version =「1.0」encoding =「UTF-8」?> 管理HOD辦公室的日常活動,處理和管理所有文件的通信,通信和歸檔。 ,修復約會,安排會議,會議等 我只是想刪除所有html標記 – user1906222

回答

3

隨着撒克遜9.5 PE您應該能夠使用http://www.saxonica.com/documentation/index.html#!functions/saxon/parse-html

<xsl:template match="workdetail/field[@name = 'summaryText1']"> 
    <xsl:value-of select="saxon:parse-html(.)"/> 
</xsl:template> 

,你有你的聲明樣式表的根元素

<xsl:stylesheet xmlns:saxon="http://saxon.sf.net/" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="2.0">...</xsl:stylesheet> 

如果您無法訪問HTML解析器,則可嘗試使用replace和正則表達式去除標記,但以下內容是作爲如何解決該問題的建議而提出的,未對正則表達式進行徹底測試:

<xsl:template match="workdetail/field[@name = 'summaryText1']"> 
    <xsl:value-of select="replace(., '&lt;/?\w+[^&lt;]*&gt;', '')"/> 
</xsl:template> 
+0

嗨馬丁感謝reply.one問題我可以做同樣的事情與saxon8e或saxonhe免費版本。任何其他方式來做到這一點。 – user1906222

+0

我不認爲開源的Saxon 9.5 HE支持該擴展功能。我不知道你用「saxon8e」引用了哪個版本,你需要自己檢查它的文檔是否支持該擴展功能。 –

+0

thanku for reply again.yaa我檢查了saxon8e和saxon9.5he都顯示撒克遜擴展功能不available.is有任何其他方式,我可以刪除所有的html標籤。 – user1906222