apache-pig

    0熱度

    2回答

    我有一張桌子,上面寫着人的名字,他去哪裏購物。我想找出每個超市名稱的最大出現次數。 例如,在下面的文件中,如果Alan前往Costco購物的最大次數,則輸出應該有他的店名和店名以及他去過那裏的次數。我需要爲下面給出的文件中的所有人找到這個計數。 Alan Costco Ryan Walmart Jim Costco Steve WholeFoods Ryan WholeFoods Jim

    0熱度

    2回答

    我是新來的Apache豬和嘗試加載測試Twitter的數據由每一個用戶名,找出鳴叫的次數將數據加載到豬。下面是一個使用PigStorage作爲我的數據 format(twitterId,comment,userRefId): Sample Data 當我試圖將數據加載到豬(」‘),它也分我的評論區分爲多個字段,因爲評論也可以有’, 」。請讓我知道如何在Pig中正確加載這些數據。我使用下面的命令

    0熱度

    1回答

    我正在使用Hortonworks沙盒並嘗試運行一個簡單的豬腳本。似乎與「文件不存在」有關的惱人的錯誤。 下面是腳本: REGISTER '/piggybank.jar'; inp = load '/my.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage.. 錯誤2997:遇到IOException異常。文件不存在: HD

    0熱度

    2回答

    我想執行一個豬語句,顯示我在txt文件中的數據,我正在mapreduce模式下運行,但我收到一個錯誤,請有人幫我解決這個問題! ! [[email protected] ~]# pig -x mapreduce 17/04/19 17:42:34 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL 17/04/19 17:42:

    0熱度

    1回答

    我用以下3個statments閱讀這是目前在HDFS數據,然後在使用中的MapReduce模式,它給了我的豬下大錯轉儲數據的數據可以請別人expalin它給我或提供解決方案,請 grunt> a= load '/temp' AS (name:chararray, age:int, salary:int); grunt> b= foreach a generate (name, salary);

    0熱度

    1回答

    當我開始使用pig在mapreduce模式下讀取hdfs上的文件時,當我使用dump b時,它開始了mapreduce過程,並且在完成之後,它會繼續重複,請告訴我whats問題。 (我已將文件權限設置爲777,將hdfs中的/ tmp權限設置爲777)。 [[email protected] conf]# pig -x mapreduce 17/04/19 23:05:59 INFO pig.E

    1熱度

    1回答

    的一部分,我有這樣的 a = load 'large_file' using PigStorage(',') b = filter a by $16 = '12345678' c = filter a by $16 = '456' d = union b,c store d into 'output.csv' 豬劇本。如果我想用值的列表來篩選。例如,我想在第16列有一個大值列表中的值時

    0熱度

    1回答

    REGISTER 'hdfs:///user/flume/elephant-bird-hadoop-compat-4.1.jar'; REGISTER 'hdfs:///user/flume/elephant-bird-pig-4.1.jar'; REGISTER 'hdfs:///user/flume/elephant-bird-core-4.1.jar'; REGISTER 'hdfs:

    0熱度

    1回答

    我有以下數據: address|some_mask_value 123 Main | 10100011110 124 Main | 10100011100 我使用Apache豬版0.15.0.2.4.2.0-258 我「M試圖在第二到最後一個字符來創建一個指標‘some_mask_value’是1。我已經試過: load_data = LOAD '/myfile.txt' USING Pi

    0熱度

    1回答

    我有這段代碼。 large = load 'a super large file' CC = FILTER large BY $19 == 'abc OR $20 == 'abc' OR $19 == 'def' or $20 == 'def' ....; 或條件的數量可能會上升到100甚至數千。 有沒有更好的方法來做到這一點?