淨正則表達式匹配的分組和重複問題

我有在一個ASP.Net應用以下VB.Net 2.0：淨正則表達式匹配的分組和重複問題

output = Regex.Replace(output, "<p>(?:(?:\<\!\-\-.*?\-\-\>)|&(?:nbsp|\#0*160|x0*A0);|<br\s*/?>|[\s\u00A0]+)*</p>", String.Empty, RegexOptions.Compiled Or RegexOptions.CultureInvariant Or RegexOptions.IgnoreCase Or RegexOptions.Singleline)

實施例的東西它匹配良好：

例子我想匹配，但它並不：

我如何讓羣組和重複功能按照我的要求工作？

編輯：哎呀，忘了評論組。 編輯＃2：哎呀，忘了失敗。 編輯＃3：固定的例子。 編輯＃4：更新的正則表達式基於答案

結論：

這裏是我的全部三個答案基準結果。由於三個匹配現在的一切，我跑了每一個通過10,000次重複文本塊：

Mine: 
<p\s*>(?:(?:<!--.*?-->)|&(?:nbsp|\#0*160|x0*A0);|<br\s*/?>|[\s\u00A0]+)*</p> 
6.312 

Gumbo: 
<p\s*>(?:[\s\u00A0]+|&(?:nbsp|\#0*160|x0*A0);|<br\s*/?>|<!--(?:[^-]+|-(?!-))*-->)*</p> 
6.05 

steamer25: 
<p\s*>(?:(?:\&nbsp\;)|(?:\&\#0*160\;)|(?:<br\s*/?>)|\s|\u00A0|<!\-\-[^(?:\-\-)]*\-\->)*</p> 
6.121

濃湯的是最快的，所以我會紀念他爲正確答案。

來源

2009-05-27 travis

你在做什麼？ – 2009-05-27 21:19:28

我試圖從html內容中剝離所有P標籤，這些標籤只包含：html註釋，不間斷空格，BR元素或空白字符。 – travis 2009-05-27 21:33:17

試試這個正則表達式：

<p\s*>(?:[\s\u00A0]+|&(?:nbsp|\#0*160|x0*A0);|<br\s*/?>|<!--(?:[^-]+|-(?!-))*-->)*</p>

來源

2009-05-27 21:16:24 Gumbo

似乎錯過了一個'）'的地方 – travis 2009-05-27 21:25:46

<p\s*>(?:(?:\&nbsp\;)|(?:\&\#0*160\;)|(?:<br\s*/?>)|\s|\u00A0|<!\-\-[^(?:\-\-)]*\-\->)*</p>

你不需要逃避尖括號<>和我添加了註釋。

來源

2009-05-27 21:20:42 steamer25

UGH！我看到我的問題，這是在P標籤本身，而不是分組。

<p\s*>(?:(?:<!--.*?-->)|&(?:nbsp|\#0*160|x0*A0);|<br\s*/?>|[\s\u00A0]+)*</p>

注意標籤中的\ s *。所有的積分！

來源

2009-05-27 21:53:03 travis

淨正則表達式匹配的分組和重複問題

回答

相關問題