0
我正在使用hbase重複數據刪除高容量數據流。我認爲它使用流中每條消息的唯一標識符作爲行密鑰運行良好。但最終用戶仍然看到來自我創建的輸出流的重複數據。唯一可能的原因是重複消息在同一時間消耗。使用高容量數據對hbase進行重複數據刪除
我有大約50個線程使用同一個隊列,這個隊列是由一個單獨的進程從流中填充的。有沒有辦法確保不會發生這種情況,或者有更好的方法來實現正確的重複數據刪除?該過程涉及在插入新記錄之前執行GET操作。