1
我有一套150M整數,我想用它來過濾數據。這些整數中的每一個都是以32位格式存儲的「用戶標識」,我想刪除集合中的所有用戶。該集合太大了,因爲我需要將其轉移到羣集上的許多工作人員,每個工作人員的內存量有限。由於我只需要一個二進制值(用戶已設置/未設置),因此使用bitarray進行此操作似乎是可行的。將整數集轉換爲一個bitarray進行內存有效查找
ID從0開始並在大約300M處結束(即,一半用戶在該集合中)。整個比特數應該設置爲False(即0),除了包含在該整數中的位置。
我已經看了the bitstring
package和the bitarray
package,但我不知道這是我的目的,我應該如何去做得更好。任何人都可以提供一些指導或如何將我的設置轉換爲bitarray的小例子,然後使用它進行查找?
有什麼理由,爲什麼你不能使用布隆過濾器?這聽起來像是他們的確切用例。 – JacaByte