2011-11-29 62 views
3

我不知道我想要什麼是可能的,但是這是:有一種方法可以生成某種文本的哈希以進行比較?

假設我有一些短語,我想要生成某種可以代表文本的短語字符串。我會將其應用於很多文本。之後,我比較所得到的字符串,以查看一個文本與另一個文本的差異程度。

我並不需要知道在哪裏的差異或檢索原始的字符串,我只需要這個比較字符串。

有這樣的事情嗎?我正在複雜的解決方案?

+0

如果你想要測量**兩個字符串之間有多少**差異,那麼散列並不是你想要的。 –

+0

@OliCharlesworth是的,哈希不是,但類似的東西。 –

回答

4

有這樣的技術,被稱爲模糊哈希。看看ssdeep。您也可能對論文Identifying almost identical files using context triggered piecewise hashing感興趣。

相關問題