2017-07-18 41 views
0

我們將每天掃描我們的aerospike並從掃描結果中獲得一些結果。 現在我們正在考慮將掃描更改爲map-reduce作業。但是我發現有些東西可能會使這次嘗試失敗。我還沒有找到任何簡單的方法將掃描作業分成多個子任務。例如,我在一個aerospike集羣中有8個節點,我可以想象,可以分配映射器的數據集的唯一模式是分別使用8個映射器掃描8個節點。我們在一個節點中有4組節點,當然我可以使用更多映射器掃描每組節點,但這會導致每個映射器的數據集不平衡。如何將aerospike掃描作業更改爲map-reduce模式?

那麼有什麼辦法讓我使用多個進程掃描一個節點中的一個節點?

+1

您是否在談論如何將Aerospike與Hadoop連接?或者你是否總體談論不同的掃描策略,將部分數據發送到不同的應用程序節點? –

回答

0

如果您通過閱讀記錄來彙總某些數據,則可能需要考慮Stream UDF。