匹配HTML輸入的所有文本內容的正則表達式

我在我的網站上有我想要自動更正和翻譯的文章。但我需要獲取內容，而不需要HTML標籤。匹配HTML輸入的所有文本內容的正則表達式

這個想法是有一個正則表達式，可以檢索標籤之間的所有內容（如果可能的話，還可以在標籤字段中找到的內容，如<img alt='Little house'>）。問題是我不知道如何編寫這樣的正則表達式。有任何想法嗎？

2009-12-06 TigrouMeow

在瀏覽器中呈現html並複製文本？ – 2009-12-06 15:08:14

：P http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – Mottie 2009-12-06 15:15:04

我會推薦使用HTML parser，而不是依賴於正則表達式。用正則表達式解析HTML通常是否定的，幾乎不可能適用於所有情況。這裏有很多關於SO的問題得出了相同的結論。

編輯看起來像我們中的幾個人有相同的想法...另外，here is a question討論更多的解析器。

2009-12-06 15:08:53 jheddings

也許一個正則表達式並不是這份工作的最佳選擇（我會免除你的強制性tirade）。

我會建議你看看HTML解析庫來幫助你在這裏，像Html Agility Pack。

2009-12-06 15:06:49

隨着人們說，正則表達式是不是最推薦的方式，但如果你決定，正則表達式是要走的路，這應該讓你開始：

string pattern = @"(<(/?[^>]+)>)" 
strippedString = Regex.Replace(str, pattern, string.Empty);

2009-12-06 15:12:17 Elad

不知道這是否幫助，但我有能夠將我網站上的文章翻譯成讀者首選的語言，我使用Bing translation widget來完成此操作，所以我不會對html進行任何解析，這些都是爲我完成的。

2009-12-06 15:17:22

回答