hyperloglog

4熱度

4回答

我有一個很大的值列表，範圍從0到100,000（這裏用字母表示）。每個輸入中可能有幾千個項目。 [a a a a b b b b c f d b c f ... ] 我想找到計數超過特定閾值的數字的計數。例如，如果閾值爲3，則答案爲{a: 4, b: 5}。這樣做的顯而易見的方法是按身份進行分組，然後對每個分組進行計數，然後進行篩選。這是一個語言無關的問題，但Clojure中（不要被推遲，

1熱度

1回答

如何將hyperloglog密鑰遷移到azure redis

我試圖使用MIGRATE命令將redis hyperloglog密鑰從一臺服務器遷移到azure redis服務，但據我所知MIGRATE doesn't support moving key to a redis server which requires authentication。那麼我該如何遷移hyperlolog密鑰呢？

0熱度

1回答

使用Spark批量+ Cassandra的HyperLogLog實現

我期待實現HyperLogLog算法來爲不同的用戶羣（或過濾器）計算不同的用戶。我使用Cassandra + Spark批處理。想知道Cassandra是否提供對HyperLogLog類型的支持。我找不到任何插件或其他相關的東西，除了http://vilkeliskis.com/blog/2013/12/28/hacking_cassandra.html這是一個很好的嘗試，但未完成。感謝您的任

0熱度

1回答

交叉點數據結構

對於各種組合（符合標準的用戶），我們有一個要求，即我們必須在每月的每個小時的每個小時保持不同的計數。我們正在考慮使用HyperLogLog，其他要求之一是提供匹配條件（標準）的並集和交集計數。我們必須在一天/一週/一個月內完成這些操作。據我讀過的工會通過hyperloglog支持。對於交叉點，超過2個hyperloglog的錯誤率似乎很高。有沒有其他的數據結構可以用於交叉口，只能滿足低基數要求的

0熱度

1回答

Redshift的Postgresql-hll（或另一個Hyperloglog數據類型/結構）

需要能夠報告Unique Visitors，但希望避免預先計算密鑰的每個可能的排列和創建多個表。作爲一個簡單的例子，讓我們說我需要在以下幾列日期（月/年） PAGE_ID COUNTRY_ID表報告每月獨立 device_type_id monthly_uniques In Druid和Redis，Hyperloglog數據類型將負責這一點（假設可接受的誤差範圍很小），在那裏我將能夠通過維度的

0熱度

1回答

邏輯集操作的基數近似 - （「與/或/異或」的「HyperLogLog」）

我們目前正面臨一個有趣的問題。我們想估計集的基數，而不需要存儲每一個項目（通常位圖/位集是一個不錯的方法）。一個非常好的算法就是所謂的HyperLogLog隨機算法（更多在這裏查看http://antirez.com/news/75）。這裏的問題是，你只能合併集作爲的UNION，所以基本上這是一個或組合。我們實際上不僅需要將集合與OR結合，而且還要與AND結合使用。我們甚至想要結合這些操作。

0熱度

1回答

如何在Redis HyperLogLog中清除密鑰的值

我正在使用RedLogLog實現HyperLogLog來爲給定密鑰計算不同的值。這些鍵是基於小時窗口的。日曆小時更改後，我想重置傳入值的計數。我沒有看到任何通過Jedis「清除」價值的直接API。 SET在這裏不能使用，因爲它會破壞哈希。有沒有辦法正確「重置」給定鍵的計數？

1熱度

1回答

Redis超級日誌限制

我正在嘗試使用Redis Hyperloglog以黑客方式解決問題，但我想了解的是Hyperloglog對數據或分發的限制和假設。 count-min和bloom過濾器有自己的限制，但谷歌沒有提供有關Hyperloglog的應用程序和限制的更多信息。我正在使用Redis Hyperloglog和Antirez描述there are no practical limits to the cardi

1熱度

2回答

具有單個散列函數的LogLog算法如何工作

我發現了LogLog算法的基本思想的幾十種解釋，但它們都缺少關於的詳細信息散列函數結果分解如何工作？我的意思是使用單個哈希函數並不精確，而使用許多函數太昂貴。他們如何克服單哈希函數的問題？ This answer是我已經找到了最好的解釋，但仍然對我沒有任何意義：他們用一個哈希，但把它分成兩個部分。一個被稱爲桶（桶的總數量是2^x），另一個 - 基本上是與我們的散列相同的。我很難得到正在發生

0熱度

1回答

有關HyperLogLog的前導零是什麼？

我讀antirez.com和維基百科和其他一些來源understang HLL是什麼，它是如何工作的，但每次使用的術語「前導零」時間我絆倒。請解釋我們談論HyperLogLog時的含義。