我有一個文件,其中包含我想使用Pig查詢的人口普查信息。如何使用Pig循環使用唯一值
文件格式如下:
ID Name Year Gender State Count
1 Jones 1980 M MA 100
我想這應該是國家對每個名字的百分比在該年每年的文件中
我怎麼能遍歷每個的年份,並計算每個州的每個名稱出現的百分比?
結果應該如下:
1901 Jones MA 2%
1901 Jones VT 3%
1901 Smith MA 1%
1901 Lee VT 4%
....
....
2016 Jones MA 2%
2016 Jones VT 3%
2016 Smith MA 1%
2016 Lee VT 4%
每年在我需要通過州和每一個我需要計算給出的計數信息的每個名字的百分比州內進行分解表。
可以請你發佈你期待 –
修正原來的職位,包括我在尋找 – TheGoat
比例是如何確定的結果,結果的格式,例如2%? –