爲什麼將1添加到超級日誌算法中的前導零計數

如果在哈希的位模式中存在k個前導零數，爲什麼估計大小被認爲是2 ^{k + 1}？不應該是2 ^k？具有k個前導零的概率應該是1 /（2 ^ķ），並且因此尺寸應2 ^ķ爲什麼將1添加到超級日誌算法中的前導零計數

在我的代碼總是得到尺寸的正確估計當我使用K + 1代替k的。但我不明白這背後的邏輯。

2017-02-13 Golak Sarangi

您正在尋找的直覺是該算法依賴於在哈希開始處（k個零，後面是1）看到整個位模式的概率，而不僅僅是零。

更困難的部分是從那裏到估計基數在2 ^{k + 1}。不幸的是，這種形式的證明並不簡單。實際上，介紹該方法的大多數原始原始論文（Flajolet和Martin，數據庫應用的概率計數算法，http://algo.inria.fr/flajolet/Publications/FlMa85.pdf）致力於證明用它計算的估計值是一個很好的估計值。隨後的論文（LogLog和HyperLogLog論文）對他們的改進估算也有類似的證明。

希望有幫助！

來源

2017-02-14 10:13:04 OronNavon