如何通過MinHash計算兩個文本與兩個包的Jaccard相似度的相似度？

text0 =「AAAAAAAAAAAA」;

text1 =「AAAAABAAAAAA」;

我使用4-ingle。因此，text0 = {AAAA}，text1 = {AAAA，AAAB，AABA，ABAA，BAAA}。

然後，Jaccard相似度是sim = 1/5 = 0.2。

我不想要這個結果。因爲這兩個文本似乎有很高的相似性。

我想用袋子相似如下：

text0 = {AAAA，AAAA，AAAA，AAAA，AAAA，AAAA，AAAA，AAAA，AAAA}，

的text1 = {AAAA，AAAA， AAAB，AABA，ABAA，BAAA，AAAA，AAAA，AAAA}。

如果使用這兩個包，它的類似是sim = 5/9。這遠高於0.2。

MinHash能做到這一點嗎？

對於袋子，你可以使用加權minwise散列，看到

或

如果多重性總是小的整數，那麼也可以使用未加權的min-wise哈希，使條目具有唯一性，例如，通過編號：

text0 = {AAAA1，AAAA2，AAAA3，AAAA4，AAAA5，AAAA6，AAAA7，AAAA8，AAAA9}，

的text1 = {AAAA1，AAAA2，AAAB1，AABA1，ABAA1，BAAA1，AAAA3， AAAA4，AAAA5}。

2017-09-01 06:57:34 otmar

非常感謝。我會看看這兩篇論文。 –

通過編號使項目獨一無二是一個好主意。這意味着在「ABCDEFGHIJKLMNOPQRSTUVWXYZ」和「B」之間沒有檢測到相似性。 –

對於您的示例，我們可能有 text0 = {ABCD1，BCDE1，CDEF1，...} text1 = {BCDE1，CDEF1，DEFG1，...} 顯然具有共同元素。 – otmar

回答