2010-02-13 158 views
0

輸入:文本刪除垃圾郵件URL

dsfdsf WWW。 cnn .com dksfj kdsfjkdjfdf www.google.com dkfjkdjfk w w w。雅 呼.CO mdfdd

輸出:

dsfdsf dksfj kdsfjkdjfdf dkfjkdjfk mdfdd

我怎樣寫,做這在C#中的作用?

+0

沒有它可以是任何鏈接 – lars 2010-02-13 11:14:01

回答

1

基本上你就必須實現兩個步驟:

  1. 正常化
  2. 過濾

規範化意味着你會從你的輸入中刪除所有的空白和其他噪聲的字符,然後你做一個將所有變音符,特殊字符等轉碼爲基本的拉丁字母(這是爲了將相同或相似的字形映射爲單個字符,例如omicron和o看起來相同)。您需要保留從規範化版本的輸入到原始輸入的一對一映射。

然後,您將搜索標準輸入的阻塞模式,檢索原始輸入中的相同模式並將其刪除。

當然,這種方法不是故障安全的,實際上可能會出現誤報。

一個很好的答案描述簡單的過濾是如何註定可以在這裏找到:

How do you implement a good profanity filter?