當你通過其RSS channel, 其煩不進行過濾的信息看爲特定Wikipedia article消息,因爲大多數的編輯是垃圾郵件, 破壞,小編輯等不如過濾維基百科的方式編輯
我方法是創建過濾器。我決定刪除所有不包含貢獻者暱稱但僅由貢獻者的IP地址標識的編輯,因爲大部分此類編輯都是垃圾郵件(雖然有一些很好的貢獻)。這與正則表達式很容易做到。 我還刪除了包含vulgarisms和其他典型垃圾郵件關鍵字的編輯。
你知道一些更好的方法,利用正則表達式,人工智能,文本處理技術等算法或啓發式?這種方法應該能夠檢測到壞帖子(小編輯或破壞行爲),並應該能夠逐步瞭解什麼是好/壞貢獻並更新其數據庫。
謝謝
謝謝你的超級回答。 – xralf 2012-02-16 13:56:27