我有我只是想從文本一個HTML字符串:C#Regrex提取HTML文本
string html = "<span class="MyText" id="1"> SomeText blah blah</span>";
於是我就用下面的表達式:
public static string StripHTMLTags(string source)
{
return Regex.Replace(source, "<.*?>", string.Empty);
}
但有時HTML字符串中包含幾行HTML的:
string html = "<span class="MyText" id="1">SomeText blah blah</span<br><span class="MyText" id="2">SomeText blah blah 1</span><br><span class="MyText" id="2">SomeText blah blah2</span>";
所以現在我想提取出那是<span>
標記和保存位置之間的文本e他們在列表或數組或行。
注: 我解析自定義HTML只會有兩個標籤突破和跨距標籤。
我該如何使用Regex來做到這一點?
HTML不夠規律,不能用正則表達式解析;) –
我解析的自定義HTML將只有兩個標記
和 –
我的應用程序是從服務器接收HTML文本的C#Windows應用程序。 –