我有存儲在實時到HDFS一些慢慢改變的元數據。我想編寫一份豬作業,將這些行壓縮到每個關鍵點的最近行。獲得通過時間戳最後一排,豬
例如,對於這些數據(增加了清晰度列標題):
ts meta key
-- ---- ---
1 foo id1
2 que id2
3 que id2
4 foo id1
5 pasa id2
6 pasa id2
7 foo id1
8 pasa id2
9 pasa id2
10 pasa id2
11 pasa id2
12 hombre id2
13 foo id1
14 foo id1
15 hombre id2
16 bar id1
17 bar id1
18 bar id1
19 bar id1
20 bar id1
我希望得到的輸出:
15 hombre id2
20 bar id1
我剛開始學習的來龍去脈豬拉丁文 - 是否有內置的方法可以在豬或某個圖書館中完成此操作,還是應該編寫一個UDF?你可以做到這一點
謝謝,這工作得很好。我有點擔心,排序不會規模以及來自@ mr2ert的解決方案,但有一個結果行結束了希望,所以我會等到試圖優化之前出現的性能問題。 –