2011-06-13 40 views
1

問題是: 我有一個文本文件的集合,我想拿起最相似的一個輸入文件。 輸入文本文檔可以完全匹配或部分修改。 算法必須非常快。simhash like算法來比較兩個文本文件

目前,我發現simhash從收集文件中獲取指紋。有沒有其他算法可以做同樣的事情?

回答

1

你試過LSH(局部敏感哈希)技術

0

LSH(局部敏感哈希)技術是通用的索引方法。他們非常有效地找到近似的近鄰。

SimHash是LSH的哈希算法之一。它對實值數據使用餘弦相似度。

MinHash是LSH的另一個哈希算法。它計算二元向量上的相似度相似度。

Mining of Massive Dataset, Chapter 3 by Anand Rajaraman and Jeff Ullman.特別是對問題空間和MinHash的介紹。