我有以下兩個文本:如何通過MinHash計算兩個文本與兩個包的Jaccard相似度的相似度?
text0 =「AAAAAAAAAAAA」;
text1 =「AAAAABAAAAAA」;
我使用4-ingle。因此,text0 = {AAAA},text1 = {AAAA,AAAB,AABA,ABAA,BAAA}。
然後,Jaccard相似度是sim = 1/5 = 0.2。
我不想要這個結果。因爲這兩個文本似乎有很高的相似性。
我想用袋子相似如下:
text0 = {AAAA,AAAA,AAAA,AAAA,AAAA,AAAA,AAAA,AAAA,AAAA},
的text1 = {AAAA,AAAA, AAAB,AABA,ABAA,BAAA,AAAA,AAAA,AAAA}。
如果使用這兩個包,它的類似是sim = 5/9。這遠高於0.2。
MinHash能做到這一點嗎?
非常感謝。我會看看這兩篇論文。 –
通過編號使項目獨一無二是一個好主意。這意味着在「ABCDEFGHIJKLMNOPQRSTUVWXYZ」和「B」之間沒有檢測到相似性。 –
對於您的示例,我們可能有 text0 = {ABCD1,BCDE1,CDEF1,...} text1 = {BCDE1,CDEF1,DEFG1,...} 顯然具有共同元素。 – otmar