我有一個包含成千上萬行重複行的文件。我想根據行號查找重複項之間的平均時間/距離。查找重複行之間的平均時間/距離
例如:(其中第一列是一個行號)
1 string1
2 string2
3 string2
4 string1
5 string3
會給2(第一對重複的之間3行,第二重複之間1行,除以2,因爲有2份重複)。
關於如何解決這個問題的任何想法?
編輯
Starting test!
32-bit hash: 0x995D9A6E
32-bit hash: 0xA27B264D
32-bit hash: 0x856ED0A5
32-bit hash: 0x3B83614D
32-bit hash: 0x23D92F43
32-bit hash: 0xA1D0BE63
32-bit hash: 0xB0BF66B6
32-bit hash: 0x968F7074
32-bit hash: 0x76F75FD1
32-bit hash: 0x76A51358
如果你有3個重複的行,你考慮一下距離:1-2,1-3,2-3? –
我想我會把他們當作兩個單獨的重複。考慮的距離將在第一和第二,然後是第二和第三之間。 – SamSong
那麼,你首先說過你只考慮到第一次出現的距離。 –