Hadoop Pig GROUP by id，get owner_id？

2013-01-11 44 views 0 likes

在Hadoop我有很多看起來像這樣的： (item_id,owner_id,counter) - 可能有重複，但總是item_id有相同的owner_id！Hadoop Pig GROUP by id，get owner_id？

我想要得到的counter的總和每個item_id，所以我有以下腳本：

alldata = LOAD '/path/to/data/*' USING D; -- D describes the structure 
known_items = FILTER alldata BY owner_id > 0L; 
group_by_item = GROUP known_data BY (item_id); 
data = FOREACH group_by_item GENERATE group AS item_id, OWNER_ID_COLUMN_SOMEHOW, SUM(known_items.counter) AS items_count;

的問題是，在FOREACH，如果我想利用known_items.owner_id - 這將是一個元組有所有分組item_id的總和。獲得第一個業主的最有效方式是什麼？

來源

2013-01-11 ddinchev

回答

最簡單的解決方案爲您提供了正確的答案，如果你的假設，即每個item_id具有相同owner_id是正確的，會讓你知道，如果它是不是：incude的owner_id作爲組的一部分。

alldata = LOAD '/path/to/data/*' USING D; -- D describes the structure 
known_items = FILTER alldata BY owner_id > 0L; 
group_by_item = GROUP known_data BY (item_id, owner_id); 
data = FOREACH group_by_item GENERATE FLATTEN(group), SUM(known_items.counter) AS items_count;

來源

2013-01-11 15:22:10

按照定義，每個item_id都是一樣的。謝謝你的解決方案，我會測試一下。 – ddinchev

同樣的定義，但你永遠不知道是否有什麼地方變得混亂，以至於你的數據不符合你的期望。 :) –

相關問題

1. Apache PIG - GROUP BY
2. Hadoop PIG Helper GROUP錯誤
3. SQL - ORDER BY，GROUP BY，ID
4. 何時使用Hadoop，何時使用ElasticSearch進行group by by/facets？
5. GROUP BY ID範圍？
6. order by by group by
7. hadoop streaming get node id
8. Hadoop Pig Max命令
9. 爲Hadoop/PIG輸出數據分配ID
10. T-SQL SELECT與GROUP BY ID

11. Django group by foreign key id
12. SELECT WHERE group id IN array ORDER BY and Group By
13. group by by desc
14. group by by by by mysql
15. SQL Group By，Get最少函數的行
16. group by by rollup
17. Mysql group by by by by？
18. hadoop pig bag subtraction
19. GROUP BY後ORDER BY
20. SQL ORDER BY GROUP BY
21. 加入並在Hadoop中分組Pig
22. SQL GROUP BY問題
23. ORDER BY GROUP BY
24. group by by django
25. $ group by by undefined
26. MySQL：ORDER BY FIELD/GROUP BY
27. GROUP BY和ORDER BY
28. SQL ORDER BY GROUP BY
29. SQL Group By By By By Count
30. MapReduce和SQL GROUP BY