2015-10-18 59 views
0

我試圖檢測類似的文本片斷,以阻止垃圾郵件發佈者發佈與小改動相同的垃圾郵件。用哈希檢測重複的文本片段

爲此,我想使用散列而不是將所有句子保存在數據存儲中。節省空間並快速查找。

我哈希整個文本,沒有標點或怪異的字符,和比較哈希來查找重複的垃圾郵件。

但是,只要垃圾郵件發送者添加一個隨機值,系統就會失敗。

有沒有人有辦法改進這個系統?我嘗試了感知哈希,但這似乎只對大塊文本有效。

回答

0

那麼,哈希基本上是,你不會使用哈希算法檢測'相似'的文本片段,因爲它們被設計爲完全改變兩個不同的測試用例,即使差異是逗號。雪崩效果:https://en.wikipedia.org/wiki/Avalanche_effect

不錯的想法刪除標點符號/怪異的字符雖然。如果您可以找出垃圾郵件發送者在哪裏添加該值(例如,第1行),則可以刪除文本並從開始到結尾2散列(只是一個想法)。 你也可以散列文本的關鍵字(標題,產品...)