背景信息消毒特定HTML的算法: 我有大段文字,我經常在一個字符串從封裝(使用LINQ)的XML文檔。該字符串包含許多HTML,我需要爲輸出目的而保留這些HTML,但需要刪除此字符串中偶爾出現的電子郵件和離散HTML鏈接。違規文本的例子是這樣的:使用LINQ或C#從字符串
--<a href="mailto:[email protected]" target="_blank">John Smith</a> from <a href="http://www.agenericwebsite.com" target="_blank">Romanesque Architecture</a></p>
我需要能夠做的是:
- 查找以下字符串:
<a href
- 刪除該字符串和所有字符以下這通過串
>
- 此外,隨時刪除此字符串
</a>
有沒有辦法用LINQ,我可以輕鬆地做到這一點,或者我將不得不創建一個使用.NET字符串操作來實現這一目標的算法?
HTML敏捷性包 –
你爲什麼要使用LINQ?這看起來像正則表達式/字符串操作將更簡單 –
+1 @AustinSalonen關於處理html的任何問題的唯一答案! Html和正則表達式是一個等待發生的事故。我喜歡正則表達式:) – Goran