2010-10-20 111 views
0

我的任務是爲Rails應用程序實施基於黑名單的褻瀆語言過濾。我知道基於黑名單的過濾存在很多問題,但是這個決定高於我的頭腦。挑戰:我正在尋找一個很好的西班牙語褻瀆名單來進入過濾器。對於英語,我們正在建立一個列表,其中詳盡列出了共軛/複數/等,每行文本文件一個。在西班牙的公共領域是否存在這樣的清單?西班牙語褻瀆黑名單

回答

1

找到好的清單並讓它們調整很困難。這聽起來像是你正在做大量可以自動化的手動工作(即共軛)。我爲我公司的profanity filter named CleanSpeak做了很多這樣的工作,其中大部分工作都可以使用詞彙的POS標識符自動進行自動處理,並且在很多情況下,您可以手動進行POS標記或找到POS源。

您還需要考慮清單的質量以及過濾器的維護和管理。許多人認爲這很簡單,然後意識到防止誤報非常困難。所有這一切說,我們發現大多數其他語言的列表很難通過在線方式獲得,最終付出了許多建造或從其他公司購買的許多清單。我們在網上找到的名單最終在我們翻譯後幾乎毫無價值。我們也試圖拿出黑名單並進行翻譯,這是完全失敗的,因爲大多數英語褻瀆語言在其他語言中沒有等同物。我會建議您購買清單或與當地大學的學生合作生成清單。我們的許多客戶發現這種方法相對較好,而且價格也不貴。

我還建議你看看那裏的一些資源,它們定義了管理用戶生成內容的最佳方法。這些將有助於指導您完成任何構建與購買決策。

+1

POS =銷售點? – Zabba 2010-10-21 16:36:23

+0

POS =言語的一部分。感謝Brian的反饋,這裏有很多美食。 – Alterscape 2010-10-21 23:15:35