simhash

    2熱度

    4回答

    有沒有一個散列函數,其中輸入的小變化導致輸出的小變化?例如,像: hash("Foo") => 9e107d9d372bb6826bd81d3542a419d6 hash("Foo!") => 9e107d9d372bb6826bd81d3542a419d7 <- note small difference

    1熱度

    2回答

    我正在使用simhash,但也看到minhash更有效。 但我不明白。 請爲我解釋:什麼比simhash更有利的minhash?

    0熱度

    1回答

    正如我剛纔所知,simhash和minhash可用於此任務。但是所有這些算法都必須遍歷整個文本數據庫,這將非常可靠。 有沒有可以加速任務的優化或其他算法? 我所想到的就是將文本數據庫分成幾個部分,並將兩兩相似性並行。我的文本數據庫有大約10億條記錄。

    1熱度

    1回答

    我正在檢查Simhash模塊(https://github.com/leonsim/simhash)。 我認爲Simhash(「String」)。distance(Simhash(「Another string」))是兩個字符串之間的漢明距離。現在,我不知道我的理解是「完全get_features(string)方法,如圖(https://leons.im/posts/a-python-imple

    0熱度

    1回答

    我一直在使用simhash算法。我根據我對爬蟲的理解來實現它。但是,當我做了一些測試時,對我來說似乎不太可靠。 我計算了200,000個不同文本數據的指紋,並看到一些不同的內容具有相同的指紋。所以碰撞的可能性很大。 我的實現代碼如下。 我的問題是:如果我的實現是正確的,這個算法有一個很大的衝突。谷歌如何使用這種算法?否則,我的算法有什麼問題? public long CalculateSimHas

    1熱度

    2回答

    問題是: 我有一個文本文件的集合,我想拿起最相似的一個輸入文件。 輸入文本文檔可以完全匹配或部分修改。 算法必須非常快。 目前,我發現simhash從收集文件中獲取指紋。有沒有其他算法可以做同樣的事情?

    1熱度

    1回答

    我想要構造一個成對距離矩陣,其中「距離」是實現here時兩個字符串之間的相似度分數。我正在考慮使用sci-kit learn的成對距離方法來做到這一點,因爲我之前已經使用它來進行其他計算,並且容易的並行化非常棒。 下面是相關的代碼: def hashdistance(str1, str2): hash1 = simhash(str1) hash2 = simhash(str2)

    2熱度

    1回答

    這還不是編程問題! 但我正在研究如何比較網頁以查看頁面是否相同/相似。這是一個個人項目,而不是工作/學校...(只是說!) 我找到了一些基本的simhash實現,並想知道是否有人可以指向我一個非常好的強大的py/php simhash實現。我寧可不要在這方面重新發明輪子。另外,我對潛在能夠爲給定頁面計算/生成DOM結構感興趣,然後計算樹/結構的「結束/邊緣」節點以確定這可能是一種方法確定頁面的相似

    1熱度

    2回答

    我有使用哈希函數的問題。我必須爲文檔中的每個單詞指定一些編號(128位或64位)。所以,「相似性」的散列值必須與「相似」相近。這意味着,如果具有相似值=> 10022(說),則相似=> 10025。這應該接近類似的詞。不同名稱的散列值也應該相似。這意味着,「john」的哈希值也應該與「michel」或「sita」等近似。如果任何機構有任何想法。 謝謝先進。 :)

    2熱度

    1回答

    假設我有五組我想集羣。據我所知,這裏所描述的SimHashing技術: https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/ 可能產生三個集羣({A},{B,C,D}和{E}),舉例來說,如果其結果是: A -> h01 B -> h02 C -> h02 D -> h02 E -> h03