2016-12-18 80 views
0

如何在span標籤中選擇排除不必要的「& nbsp」字符的文本?我只需要數字(最後歐元字符會很好,但它不是必須的)。請注意,數字會發生變化,它們並不相同。XPath,如何刪除歐元符號不必要的字符?

<span class="price">15.900&nbsp;€</span> 
+0

那是XML或HTML? – spender

+0

text = text.Replace(「 」,「」); –

+0

HTML,我在練習webscraping。 – CsharpNoob

回答

1

如果使用C#和XPath再假設你寫你的XPath表達式爲C#字符串就可以使用"translate(//span[@class = 'price'], '\u00A0', '')"

工作示例(在Javascript)是

console.log(document.evaluate("translate(//span[@class = 'price'], '\u00A0', '')", document, null, XPathResult.ANY_TYPE, null).stringValue);
<span class="price">15.900&nbsp;€</span>

+0

你能詳細說明/ u00A0,''部分嗎? – CsharpNoob

+0

好的,請參閱文檔https://msdn.microsoft.com/en-us/library/ms228362.aspx#String%20Escape%20Sequences中的Unicode轉義序列。它是'\ u00A0'而不是'/ u00A0'。 –

+0

在HTML中,實體引用「nbsp;」僅僅是編寫Unicode字符U00A0的HTML方式,其中Javascript或C#字符串文字允許您以「\ u00A0」的形式轉義。 –