simhash

2熱度

4回答

有沒有一個散列函數，其中輸入的小變化導致輸出的小變化？例如，像： hash("Foo") => 9e107d9d372bb6826bd81d3542a419d6 hash("Foo!") => 9e107d9d372bb6826bd81d3542a419d7 <- note small difference

1熱度

2回答

什麼比simhash更有利於minhash？

我正在使用simhash，但也看到minhash更有效。但我不明白。請爲我解釋：什麼比simhash更有利的minhash？

0熱度

1回答

如何檢測大數據上的相似文字？

正如我剛纔所知，simhash和minhash可用於此任務。但是所有這些算法都必須遍歷整個文本數據庫，這將非常可靠。有沒有可以加速任務的優化或其他算法？我所想到的就是將文本數據庫分成幾個部分，並將兩兩相似性並行。我的文本數據庫有大約10億條記錄。

1熱度

1回答

海明距離（Simhash python）給出意想不到的值

我正在檢查Simhash模塊（https://github.com/leonsim/simhash）。我認爲Simhash（「String」）。distance（Simhash（「Another string」））是兩個字符串之間的漢明距離。現在，我不知道我的理解是「完全get_features（string）方法，如圖（https://leons.im/posts/a-python-imple

0熱度

1回答

simhash功能可靠嗎？

我一直在使用simhash算法。我根據我對爬蟲的理解來實現它。但是，當我做了一些測試時，對我來說似乎不太可靠。我計算了200,000個不同文本數據的指紋，並看到一些不同的內容具有相同的指紋。所以碰撞的可能性很大。我的實現代碼如下。我的問題是：如果我的實現是正確的，這個算法有一個很大的衝突。谷歌如何使用這種算法？否則，我的算法有什麼問題？ public long CalculateSimHas

1熱度

2回答

simhash like算法來比較兩個文本文件

問題是：我有一個文本文件的集合，我想拿起最相似的一個輸入文件。輸入文本文檔可以完全匹配或部分修改。算法必須非常快。目前，我發現simhash從收集文件中獲取指紋。有沒有其他算法可以做同樣的事情？

1熱度

1回答

計算成對simhash「距離」

我想要構造一個成對距離矩陣，其中「距離」是實現here時兩個字符串之間的相似度分數。我正在考慮使用sci-kit learn的成對距離方法來做到這一點，因爲我之前已經使用它來進行其他計算，並且容易的並行化非常棒。下面是相關的代碼： def hashdistance(str1, str2): hash1 = simhash(str1) hash2 = simhash(str2)

2熱度

1回答

比較web頁面 - simhash和DOM邊緣節點處理

這還不是編程問題！但我正在研究如何比較網頁以查看頁面是否相同/相似。這是一個個人項目，而不是工作/學校...（只是說！）我找到了一些基本的simhash實現，並想知道是否有人可以指向我一個非常好的強大的py/php simhash實現。我寧可不要在這方面重新發明輪子。另外，我對潛在能夠爲給定頁面計算/生成DOM結構感興趣，然後計算樹/結構的「結束/邊緣」節點以確定這可能是一種方法確定頁面的相似

1熱度

2回答

相似哈希函數（simhash）

我有使用哈希函數的問題。我必須爲文檔中的每個單詞指定一些編號（128位或64位）。所以，「相似性」的散列值必須與「相似」相近。這意味着，如果具有相似值=> 10022（說），則相似=> 10025。這應該接近類似的詞。不同名稱的散列值也應該相似。這意味着，「john」的哈希值也應該與「michel」或「sita」等近似。如果任何機構有任何想法。謝謝先進。 :)

2熱度

1回答

MinHashing vs SimHashing

假設我有五組我想集羣。據我所知，這裏所描述的SimHashing技術： https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 可能產生三個集羣（{A}，{B,C,D}和{E}），舉例來說，如果其結果是： A -> h01 B -> h02 C -> h02 D -> h02 E -> h03