apache-pig

    0熱度

    1回答

    我想連接使用Pig的所有記錄。 與「pigStorage」和「-tagFile」標籤中的數據加載後,我的數據是這樣的: (filename, aaaaaaaaaaa) (filename, bbbbbbbbbbbbbb) ,我更喜歡的結果是: (filename, aaaaaaaaaaabbbbbbbbbbbbbb) 然後,我可以將數據存儲到文件名爲rowkey的HBase。 任何建議將

    0熱度

    2回答

    我有這樣的數據。 1:23:0.20 2:34:0.50 3:67:0.90 4:87:0.10 5:23:0.12 我想總結每2行最後一列值這樣。 0.20+0.50 = 0.70 0.90+0.10 = 1.0 ,並打印這樣 1:23:0.20:0.70 2:34:0.50:0.70 3:67:0.90:1.0 4:87:0.10:1.0 5:23:0.12 這是

    0熱度

    1回答

    我想要做一個簡單的豬查詢,我需要找到電影的平均評級爲ID 178我已經嘗試了一些版本的下面和過濾器工作,但沒有AVG功能。任何人都可以建議嗎?由於 a = load '/user/pig/u.data' AS (userid:int, movieid:int, rating:double, timestamp:chararray); b = FOREACH a GENERATE AVG(rati

    0熱度

    1回答

    我具有以下數據: John,fl,3 John,wt,3 John,sp,4 John,sm,3 Mary,fl,3 Mary,wt,3 Mary,sp,4 Mary,sm,4 我想按名稱(第一列),以計算所述數據的平均GPA(第三列)。爲此,我創建了以下豬腳本,它工作得很好。 a = LOAD '/root/sample.txt' using PigStorage(',') a

    0熱度

    2回答

    我有一個情況下,我需要的格式的行讀取文件 Field1,Field2,Field3,Field4,Field5,Field6#Field1,Field2,Field3 雖然一個方式來實現這一目標的分割記錄的讀者是使用記錄讀者喜歡KeyValueLineRecordReader用分隔符#。但我將不得不在我的UDF中使用String.split來分割,的密鑰和值,我覺得它會減慢執行速度。 1.是否

    0熱度

    2回答

    我是豬腳新手。在下面的例子中,我被卡住了。任何人都可以幫助我如何使用pigscript獲得下面指定的輸出? 輸入: 1|ABC|NC 1|DEF|NC 2|CFD|NY 2|CGF|NY 輸出: 1|ABC,DEF|NC 2|CFD,CGF|NY 腳本: A = LOAD 'testfile.txt' USING PigStorage('|') AS (Id:chararray,n

    0熱度

    1回答

    後加入和GROUP BY我在新的豬,並試圖理解爲什麼我不能指望後加入和組: A = LOAD 'mary' as (line); B = LOAD 'mary' as (line); wordsA = foreach A generate flatten(TOKENIZE(line)) as wordA; grpdA = group wordsA by wordA; cntdA = fo

    0熱度

    1回答

    我想弄清楚下面的問題。 有多少女性用戶提供了至少一個等級4.我認爲我的連接和過濾器是正確的,但我無法弄清楚計數部分已經嘗試了以下的衆多版本。 a = load '/user/pig/movie' AS (userid:int, movieid:int, rating:int, timestamp:chararray); b = load '/user/pig/reviewer' using Pi

    0熱度

    1回答

    我在下面 提到文件的數據美國美國歐洲歐洲美國 美國美國歐洲美國 EUROPE美國 我試圖找出美國和歐洲的數量。 1) inp = LOAD '/user/countries.txt' as (singleline); dump inp; Output (USA USA EUROPE EUROPE EUROPE EUROPE USA) (USA USA EUROPE EUROPE USA

    0熱度

    1回答

    我試圖存儲數據AVRO格式,但無法實現爲什麼我得到錯誤。基準2不在聯合[「null」,「string」]這是什麼意思? 解析XML: REGISTER piggybank.jar REGISTER /opt/cloudera/parcels/CDH/lib/pig/lib/avro.jar REGISTER /opt/cloudera/parcels/CDH/lib/pig/lib/json-