2016-08-22 59 views
1

我有30億字符串存儲在postgresql數據庫中。我想製作一張頻率圖,這樣我就可以丟棄少於100次或超過10萬次的字符串。我應該使用什麼樣的數據結構?我在想一些布隆過濾器。數十億字符串的計數頻率

回答

0

您可以使用HyperLogLog,它使您可以估計具有較小內存佔用量的多重集的基數。

這是一個example,它使用java-hll,一種HyperLogLog的Java實現。如果java不適合你,你可以使用其他語言實現的搜索github。可以使用standalone implementation