我正在尋找一個集合數據結構,該集合數據結構對於一個項目是該集合的一部分的可能性很低而進行了優化。機率很低的概率集
用例是Gnip/Twitter合規性流水,每秒我們獲得約1,000個事件(這是所有Twitter的刪除)。我們有一個表格,比方說1000萬個存儲推文(每年增加這個數量),如果一個項目出現在流水帳中,我必須刪除它。我猜測每10萬秒會有一場比賽(將空氣中的數字拉出)。
我曾想過一個布隆過濾器,可能是幾個鏈接,但考慮到有一個非常低的命中機率,我總是需要通過整個鏈,事情最終會達到線性。
有沒有一個很好的次線性數據結構呢?
您是否嘗試過使用哈希表? – TilmannZ
散列表的大小會線性增加,我試圖避免。 – Joe