輸入:文本刪除垃圾郵件URL
dsfdsf WWW。 cnn .com dksfj kdsfjkdjfdf www.google.com dkfjkdjfk w w w。雅 呼.CO mdfdd
輸出:
dsfdsf dksfj kdsfjkdjfdf dkfjkdjfk mdfdd
我怎樣寫,做這在C#中的作用?
輸入:文本刪除垃圾郵件URL
dsfdsf WWW。 cnn .com dksfj kdsfjkdjfdf www.google.com dkfjkdjfk w w w。雅 呼.CO mdfdd
輸出:
dsfdsf dksfj kdsfjkdjfdf dkfjkdjfk mdfdd
我怎樣寫,做這在C#中的作用?
首先在C#中學習RegEx (Regular Expression) facilities,然後您需要一個良好的RegEx that matches a URL。你需要改變它來管理帶有空格的URL。
基本上你就必須實現兩個步驟:
規範化意味着你會從你的輸入中刪除所有的空白和其他噪聲的字符,然後你做一個將所有變音符,特殊字符等轉碼爲基本的拉丁字母(這是爲了將相同或相似的字形映射爲單個字符,例如omicron和o看起來相同)。您需要保留從規範化版本的輸入到原始輸入的一對一映射。
然後,您將搜索標準輸入的阻塞模式,檢索原始輸入中的相同模式並將其刪除。
當然,這種方法不是故障安全的,實際上可能會出現誤報。
一個很好的答案描述簡單的過濾是如何註定可以在這裏找到:
沒有它可以是任何鏈接 – lars 2010-02-13 11:14:01