我想要拿出一個算法來在地圖縮減中執行以下操作。我收到一堆對象和所有者的用戶ID。換句話說,我收到了一堆對:分組收集與閾值過濾
(object, uid)
我想對(object,count)
的列表,其中count
是指在列表中出現的物體的次數就結了。需要說明的是,我們需要如下過濾一切:
我們應該只包含對象對,這樣的對象被重複至少
n
不同的UID。我們應該只包含這樣的對象,使得它重複的總次數至少爲m。
對象和用戶都表示爲整數。問題在於將每個(object,uid)
對轉換爲(object, 1)
然後再通過求和第二個整數來減少它們是很簡單的。然後我可以過濾所有沒有達到(2)閾值的東西。然而,在這一點上,我會失去必要的信息來過濾(1),這是我不知道如何納入這一點。任何人有任何建議?