我有下面的場景,我有多個大文件(每個大約200M記錄),我想通過kafka發送該文件。爲了獲得更好的性能,我想使用Kafka分區來發送數據。現在我的數據要求是針對特定的密鑰,所有的消息都應該傳送到特定的分區。目前,對於POC,我使用10個卡夫卡分區,並使用數字ID字段對數據進行分區。我的邏輯只是檢查IT的最後一位數字並將記錄發送到相應的kafka分區。 EX:ID - ***7
將總是進入分區7.現在這個邏輯不能用於推廣我的代碼,因爲密鑰可以是非數字的,分區數量可以根據需要增加/減少。在kafka分區中均勻分佈數據的分區技術
我想知道是否有一個哈希算法,可以在特定範圍內生成值(例如,如果我必須有10個分區,那麼它應該創建以0-9
結尾的所有哈希值)?
米哈爾感謝您的評論,我看到有關於DefaultPartitioner非常少的文檔。每次通過時都會爲同一個密鑰生成相同的散列分區號碼對? – Explorer
是的,除非您更改分區數量。 –