正則表達式 - 刪除標記

-2

可能重複：
Using C# regular expressions to remove HTML tags 正則表達式 - 刪除標記

我不得不刪除標記，並保持在一個XML文件中的所有其他信息。使用正則表達式時，我有點不知所措。我只能想出一行一行的讀取文件，然後嘗試「定位」所有標籤，並用「」 - 空字符串替換它們。但是，它不按預期工作：

line = Regex.Replace(line, "<.*>", "");

我能請得到一個解釋這是爲什麼不按預期工作（我認爲這應該只是找到其內部<>另外，可以符號的所有可能的組合。你應該推薦一個很好的正則表達式的介紹，我在regular-expressions.info上看了很多，但是我發現它在某種程度上是不完整和令人困惑的。

來源

2013-01-23 John Smith

爲什麼不使用xml解析器？ – I4V

你究竟想要留下什麼？除了'<' and '>'以外的所有東西？留下屬性？留下CDATA和XText？ – user7116

從XML文件中刪除'<>'？有些事情告訴我你並沒有採用最佳方法。 –

你應該讓*量詞懶惰，以便它匹配next>而不是最後一個：

line = Regex.Replace(line, "<.*?>", "");

來源

2013-01-23 18:13:32 BlackBear

除了嘗試用正則表達式解析XML（其他人無疑會發布該鏈接），您的問題是*是貪婪。它將盡可能匹配文檔中的第一個<和最後一個>。

舉例來說，如果你有這樣的：

<someTag>some stuff

然後，它會正常工作。

不過，如果你有這樣的：

<someTag>some stuff</someTag>

然後，它會匹配第一個<最後>，因此刪除標記之間的內容。

一個解決方案，因爲BlackBear建議是爲了使非貪婪添加?到*。這樣它將匹配可能的最小匹配而不是最大匹配。

但是更好的解決方案，正如I4V所評論的那樣，是使用XML解析器來解析XML。

來源

2013-01-23 18:14:25

爲什麼要在正則表達式中使用XML解析器時浪費時間？

using (var reader = XmlReader.Create("file.xml")) 
{ 
    while (reader.Read()) 
    { 
     switch (reader.NodeType) 
     { 
     case XmlNodeType.Text: 
     case XmlNodeType.CDATA: 
     case XmlNodeType.EntityReference: 
     case XmlNodeType.Whitespace: 
     case XmlNodeType.SignificantWhitespace: 
      Console.Write("{0}", reader.ReadContentAsString()); 
      break; 
     } 
    } 
}

來源

2013-01-23 18:24:00 user7116

爲什麼浪費時間用這樣複雜的代碼，當你可以用簡單的單行事物來完成時？ ;） – BlackBear

@BlackBear：因爲正則表達式對這些問題是一個懶惰的，通常不正確的「解決方案」。對於跨越多行的XML元素，所有當前答案都會失敗。 – user7116

是的，同意這一點，只是在開玩笑;）但是使用完整的XML解析器可能是一種矯枉過正，它取決於你想要做什麼 – BlackBear

正則表達式 - 刪除標記

回答

相關問題