我有一個與衆不同的褻瀆相關問題。促銷代碼的褻瀆檢查
現在我們已經習慣於處理用戶生成內容的褻瀆過濾 - 任何方法都不完善,但像CleanSpeak和WebPurify這樣的產品可以做得很好。
我們現在的問題是,我們一直在構建引擎來運行基於促銷代碼的競賽,這將在國際上使用。我們可以檢查這些代碼是否在拉丁美洲西班牙語或馬來語中(至少在第一個例子中)都不是褻瀆,以確保我們不會發送相當於FUCK23
或PEN15
或其他東西的代碼。
我們嘗試了谷歌搜索並詢問我們知道的人,但我們無法找到一個容易的方法來獲取es-419
或ms
褻瀆目錄來篩選代碼。由於每個語言環境都有數百萬個代碼,因此我們寧願進行離線檢查,而不是爲每個代碼創建API(這在帶寬和使用費用方面都很昂貴)。
我知道這是一個很遠的鏡頭,但有誰知道不同語言的褻瀆名單的好來源?
#disclaim
:我們知道,沒有褻瀆的過濾是完美的,它實質上是用戶生成的內容徒勞無益,我們已經閱讀SO #273516: How do you implement a good profanity filter? - 這不是我們要求的。
對你沒有幫助,但讓我想起了這個:http://thedailywtf.com/Articles/The-Automated-Curse-Generator.aspx – 2012-01-13 12:51:04
我以前沒見過那個故事。那真是太棒了;感謝你提高我的午餐時間:o) – 2012-01-13 13:08:12
本給你的鏈接中的重要句子是:「我一直在想它,這太危險了,只有一個壞詞過濾器,我們永遠不會能夠想出每一種可能的攻擊性組合。「而已。根本沒有辦法過濾褻瀆,尤其是當有人用某種特殊的方式寫下來的時候。順便說一句,我想分享同一篇文章,但本更快。 – 2012-01-13 13:34:54