3
我不知道我想要什麼是可能的,但是這是:有一種方法可以生成某種文本的哈希以進行比較?
假設我有一些短語,我想要生成某種可以代表文本的短語字符串。我會將其應用於很多文本。之後,我比較所得到的字符串,以查看一個文本與另一個文本的差異程度。
我並不需要知道在哪裏的差異或檢索原始的字符串,我只需要這個比較字符串。
有這樣的事情嗎?我正在複雜的解決方案?
我不知道我想要什麼是可能的,但是這是:有一種方法可以生成某種文本的哈希以進行比較?
假設我有一些短語,我想要生成某種可以代表文本的短語字符串。我會將其應用於很多文本。之後,我比較所得到的字符串,以查看一個文本與另一個文本的差異程度。
我並不需要知道在哪裏的差異或檢索原始的字符串,我只需要這個比較字符串。
有這樣的事情嗎?我正在複雜的解決方案?
有這樣的技術,被稱爲模糊哈希。看看ssdeep。您也可能對論文Identifying almost identical files using context triggered piecewise hashing
感興趣。
如果你想要測量**兩個字符串之間有多少**差異,那麼散列並不是你想要的。 –
@OliCharlesworth是的,哈希不是,但類似的東西。 –