apache-pig

0熱度

2回答

我有一張桌子，上面寫着人的名字，他去哪裏購物。我想找出每個超市名稱的最大出現次數。例如，在下面的文件中，如果Alan前往Costco購物的最大次數，則輸出應該有他的店名和店名以及他去過那裏的次數。我需要爲下面給出的文件中的所有人找到這個計數。 Alan Costco Ryan Walmart Jim Costco Steve WholeFoods Ryan WholeFoods Jim

0熱度

2回答

如何使用不同的PigStorage操作

我是新來的Apache豬和嘗試加載測試Twitter的數據由每一個用戶名，找出鳴叫的次數將數據加載到豬。下面是一個使用PigStorage作爲我的數據 format(twitterId,comment,userRefId): Sample Data 當我試圖將數據加載到豬（」‘），它也分我的評論區分爲多個字段，因爲評論也可以有’，」。請讓我知道如何在Pig中正確加載這些數據。我使用下面的命令

0熱度

1回答

豬寄存器jar，文件不存在錯誤

我正在使用Hortonworks沙盒並嘗試運行一個簡單的豬腳本。似乎與「文件不存在」有關的惱人的錯誤。下面是腳本： REGISTER '/piggybank.jar'; inp = load '/my.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage.. 錯誤2997：遇到IOException異常。文件不存在： HD

0熱度

2回答

錯誤當試圖執行豬陳述

我想執行一個豬語句，顯示我在txt文件中的數據，我正在mapreduce模式下運行，但我收到一個錯誤，請有人幫我解決這個問題！！ [[email protected] ~]# pig -x mapreduce 17/04/19 17:42:34 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL 17/04/19 17:42:

0熱度

1回答

豬給我這個錯誤，當我試圖傾倒

我用以下3個statments閱讀這是目前在HDFS數據，然後在使用中的MapReduce模式，它給了我的豬下大錯轉儲數據的數據可以請別人expalin它給我或提供解決方案，請 grunt> a= load '/temp' AS (name:chararray, age:int, salary:int); grunt> b= foreach a generate (name, salary);

0熱度

1回答

試圖在豬上運行命令時出現錯誤

當我開始使用pig在mapreduce模式下讀取hdfs上的文件時，當我使用dump b時，它開始了mapreduce過程，並且在完成之後，它會繼續重複，請告訴我whats問題。（我已將文件權限設置爲777，將hdfs中的/ tmp權限設置爲777）。 [[email protected] conf]# pig -x mapreduce 17/04/19 23:05:59 INFO pig.E

1熱度

1回答

豬腳本提取行，如果列有值，清單

的一部分，我有這樣的 a = load 'large_file' using PigStorage(',') b = filter a by $16 = '12345678' c = filter a by $16 = '456' d = union b,c store d into 'output.csv' 豬劇本。如果我想用值的列表來篩選。例如，我想在第16列有一個大值列表中的值時

0熱度

1回答

在PIG中使用JsonLoader

REGISTER 'hdfs:///user/flume/elephant-bird-hadoop-compat-4.1.jar'; REGISTER 'hdfs:///user/flume/elephant-bird-pig-4.1.jar'; REGISTER 'hdfs:///user/flume/elephant-bird-core-4.1.jar'; REGISTER 'hdfs:

0熱度

1回答

查找當一個特定的字符是第二個到最後一個字符串豬

我有以下數據： address|some_mask_value 123 Main | 10100011110 124 Main | 10100011100 我使用Apache豬版0.15.0.2.4.2.0-258 我「M試圖在第二到最後一個字符來創建一個指標‘some_mask_value’是1。我已經試過： load_data = LOAD '/myfile.txt' USING Pi

0熱度

1回答

在豬中創建一個龐大的過濾器

我有這段代碼。 large = load 'a super large file' CC = FILTER large BY $19 == 'abc OR $20 == 'abc' OR $19 == 'def' or $20 == 'def' ....; 或條件的數量可能會上升到100甚至數千。有沒有更好的方法來做到這一點？