Hy,在Hadoop中分組數據
我遇到以下問題。我有2個數據集,包含具有以下結構的數據的一個:
A1 B2 C1 D1
A1 B2 C1 D3
A3 B1 C2 D2
etc
和含有這些對象值中的另一個:
A1=x
B2=y
C1=z
D1=q
etc
我怎樣才能組數據,以便比我可以有A1 = x B2 = y C1 = z D1 = q在一個地方,來計算它們?
謝謝!
Hy,在Hadoop中分組數據
我遇到以下問題。我有2個數據集,包含具有以下結構的數據的一個:
A1 B2 C1 D1
A1 B2 C1 D3
A3 B1 C2 D2
etc
和含有這些對象值中的另一個:
A1=x
B2=y
C1=z
D1=q
etc
我怎樣才能組數據,以便比我可以有A1 = x B2 = y C1 = z D1 = q在一個地方,來計算它們?
謝謝!
第二個數據集是否足夠小以適合數據節點上的內存? – climbage
讓我們說是的。你說要將它保存到列表中? – sergiuz
更可能是某種地圖,但是。你可以通過'DistributedCache'分發文件,並用你的映射器讀取它。 – climbage