我在我的網站上有我想要自動更正和翻譯的文章。但我需要獲取內容,而不需要HTML標籤。匹配HTML輸入的所有文本內容的正則表達式
這個想法是有一個正則表達式,可以檢索標籤之間的所有內容(如果可能的話,還可以在標籤字段中找到的內容,如<img alt='Little house'>
)。問題是我不知道如何編寫這樣的正則表達式。有任何想法嗎?
我在我的網站上有我想要自動更正和翻譯的文章。但我需要獲取內容,而不需要HTML標籤。匹配HTML輸入的所有文本內容的正則表達式
這個想法是有一個正則表達式,可以檢索標籤之間的所有內容(如果可能的話,還可以在標籤字段中找到的內容,如<img alt='Little house'>
)。問題是我不知道如何編寫這樣的正則表達式。有任何想法嗎?
我會推薦使用HTML parser,而不是依賴於正則表達式。用正則表達式解析HTML通常是否定的,幾乎不可能適用於所有情況。這裏有很多關於SO的問題得出了相同的結論。
編輯看起來像我們中的幾個人有相同的想法...另外,here is a question討論更多的解析器。
也許一個正則表達式並不是這份工作的最佳選擇(我會免除你的強制性tirade)。
我會建議你看看HTML解析庫來幫助你在這裏,像Html Agility Pack。
隨着人們說,正則表達式是不是最推薦的方式,但如果你決定,正則表達式是要走的路,這應該讓你開始:
string pattern = @"(<(/?[^>]+)>)"
strippedString = Regex.Replace(str, pattern, string.Empty);
不知道這是否幫助,但我有能夠將我網站上的文章翻譯成讀者首選的語言,我使用Bing translation widget來完成此操作,所以我不會對html進行任何解析,這些都是爲我完成的。
在瀏覽器中呈現html並複製文本? – 2009-12-06 15:08:14
:P http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – Mottie 2009-12-06 15:15:04