用哈希檢測重複的文本片段

我試圖檢測類似的文本片斷，以阻止垃圾郵件發佈者發佈與小改動相同的垃圾郵件。用哈希檢測重複的文本片段

爲此，我想使用散列而不是將所有句子保存在數據存儲中。節省空間並快速查找。

我哈希整個文本，沒有標點或怪異的字符，和比較哈希來查找重複的垃圾郵件。

但是，只要垃圾郵件發送者添加一個隨機值，系統就會失敗。

有沒有人有辦法改進這個系統？我嘗試了感知哈希，但這似乎只對大塊文本有效。

2015-10-18 Jochen

那麼，哈希基本上是，你不會使用哈希算法檢測'相似'的文本片段，因爲它們被設計爲完全改變兩個不同的測試用例，即使差異是逗號。雪崩效果：https://en.wikipedia.org/wiki/Avalanche_effect

不錯的想法刪除標點符號/怪異的字符雖然。如果您可以找出垃圾郵件發送者在哪裏添加該值（例如，第1行），則可以刪除文本並從開始到結尾2散列（只是一個想法）。你也可以散列文本的關鍵字（標題，產品...）

2015-10-18 14:21:42 Pbl42

回答