因此,我需要指定執行程序應該如何使用來自kafka主題的數據。將kafka分區映射到特定的火花執行器
假設我有兩個主題:t0和t1分別有兩個分區,兩個執行程序e0和e1(都可以在同一個節點上,所以分配策略不起作用,因爲在多執行程序節點的情況下它可以工作基於循環調度,無論第一個可用的執行程序如何使用主題分區)
我想要做的是使e0從t0和t1都消耗分區0,而e1從t0和t1消耗分區1。有沒有辦法解決它,除了搞調度?如果是這樣,最好的辦法是什麼。
這樣做的原因是執行程序將寫入cassandra數據庫,並且由於我們將處於並行上下文中,因此一個執行程序可能與另一個執行程序發生「碰撞」,因此數據將丟失,方法是分配一個我想強制執行的分區執行者依次處理數據。
是否有你想要做的這個特殊的理由?這可能有助於解釋您對分區分配的看法。 –
是的確,我需要強制給定的執行者爲了整體的目的對所有主題進行相同的劃分。執行者將寫入一個cassandra數據庫,因爲我們將處於並行的上下文環境中,一個執行者可能會與另一個執行者「碰撞」,因此數據將會丟失,通過分配一個分區來強制執行者按順序處理數據。 –