我有一張桌子,上面寫着人的名字,他去哪裏購物。我想找出每個超市名稱的最大出現次數。 例如,在下面的文件中,如果Alan前往Costco購物的最大次數,則輸出應該有他的店名和店名以及他去過那裏的次數。我需要爲下面給出的文件中的所有人找到這個計數。 Alan Costco
Ryan Walmart
Jim Costco
Steve WholeFoods
Ryan WholeFoods
Jim
的一部分,我有這樣的 a = load 'large_file' using PigStorage(',')
b = filter a by $16 = '12345678'
c = filter a by $16 = '456'
d = union b,c
store d into 'output.csv'
豬劇本。如果我想用值的列表來篩選。例如,我想在第16列有一個大值列表中的值時
我有以下數據: address|some_mask_value
123 Main | 10100011110
124 Main | 10100011100
我使用Apache豬版0.15.0.2.4.2.0-258 我「M試圖在第二到最後一個字符來創建一個指標‘some_mask_value’是1。我已經試過: load_data = LOAD '/myfile.txt' USING Pi
我有這段代碼。 large = load 'a super large file'
CC = FILTER large BY $19 == 'abc OR $20 == 'abc'
OR $19 == 'def' or $20 == 'def' ....;
或條件的數量可能會上升到100甚至數千。 有沒有更好的方法來做到這一點?