hyperloglog

    0熱度

    2回答

    我正在評估大型數據(〜100GB)上的分析查詢引擎(交互式以及批處理)的分析查詢。其中一個要求是低延遲(< = 1秒)的計數不同的查詢,其中近似的結果(高達5%的錯誤)是可以接受的。 PrestoDB似乎支持這與它的approx_distinct()。據我的理解,它使用HyperLogLog。但是,除非數據以累計形式保存,並且HyperLogLog值必須在運行時進行計算。對於大型數據集,我不認爲我

    1熱度

    1回答

    Hyperlog日誌是一個probablistic算法 根據Redis的HLL文件,我們可以得到錯誤的0.81%,但我得到的錯誤,如17-20% 我覺得有些不妥。這是我簡單的perl測試腳本。是否有一些錯誤 #!/usr/bin/perl -w use Redis; my $redis = Redis->new(serv

    0熱度

    3回答

    如果在哈希的位模式中存在k個前導零數,爲什麼估計大小被認爲是2 k + 1?不應該是2 k?具有k個前導零的概率應該是1 /(2 ķ),並且因此尺寸​​應2 ķ 在我的代碼總是得到尺寸的正確估計當我使用K + 1代替k的。但我不明白這背後的邏輯。

    0熱度

    1回答

    我們有一個用例,我們希望在任何時間範圍(小時粒度)中報告我們應用中的唯一身份訪問者。例如:假設在第0小時我們有下列訪問者{A,B,C,D},在第1小時我們有{C,D,E,F},在第2小時我們有{E,F,A ,B},在第3小時我們有{A,C}。我們需要回答在1小時和3小時之間有多少獨立訪客,同時應該能夠在0小時到3小時之間回答獨特訪客的數量。 當然,我們不能保存所有唯一的訪客ID,但我們可以保存給定

    -1熱度

    2回答

    我遇到過多種算法,例如Flajolet-Martin算法,HyperLogLog以從元素列表中找出獨特元素,並突然對Java如何計算它感到好奇?每種情況下存儲和查找唯一值的時間複雜度是多少?

    2熱度

    1回答

    假設我在redis中有一個hyperloglog,它計算消息是否有任何規定,我可以在某種程度上解釋刪除消息?

    0熱度

    1回答

    首先,讓我說,我讀this question. 所以,當我漫步通過互聯網和我跨算法來了,我想知道它是如何工作開始。閱讀後,我明白它是如何通過散列和使用位來計算視圖的。 我還不完全明白,是怎麼可以避免再次計算相同的看法。我們是否會存儲每個散列值,然後在遞增計數檢查之前檢查它是否已經存在於我們的數組中或其他什麼地方? 如果我們有1000k +物品,這不會使效率低很多嗎?

    0熱度

    1回答

    我對Redis HyperLogLog如何工作以及何時使用它有一些基本概念。 在使用之前,我做了一個測試:I pfadd將一些連續的數字編入HLL條目(模仿用戶ID),並且Redis很快給出了一個假陽性結果。確切地說,如果您將pfadd編號193添加到HLL條目中,則該條目中已經存在編號202。您可以在Redis的-CLI測試: 127.0.0.1:6379> del ns (integer)

    0熱度

    1回答

    我有MongoDB中的集合與樣品DOC如下 - { "_id" : ObjectId("58114e5e43d6420b7db4e15c"), "browser" : "Chrome", "name": "hyades", "country" : "in", "day" : "16-10-21", "ip" : "0.0.0.0",

    3熱度

    1回答

    我們可以使用AggregatedMergeTree表引擎,它可以用於聚合行。 通常在彙總數據中,我們不希望存儲所有唯一標識符,但仍然希望計數不同。儘管如此,我們還是希望能夠進行另一次聚合,以便在這些行之後獲得唯一的計數(通過對select查詢中的行進行分組)。 這是HyperLogLog派上用場的地方,它在clickhouse中作爲uniqState函數實現。 我想通過插入查詢直接存儲hyperl