我一直在使用simhash算法。我根據我對爬蟲的理解來實現它。但是,當我做了一些測試時,對我來說似乎不太可靠。 我計算了200,000個不同文本數據的指紋,並看到一些不同的內容具有相同的指紋。所以碰撞的可能性很大。 我的實現代碼如下。 我的問題是:如果我的實現是正確的,這個算法有一個很大的衝突。谷歌如何使用這種算法?否則,我的算法有什麼問題? public long CalculateSimHas
假設我有五組我想集羣。據我所知,這裏所描述的SimHashing技術: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 可能產生三個集羣({A},{B,C,D}和{E}),舉例來說,如果其結果是: A -> h01
B -> h02
C -> h02
D -> h02
E -> h03