apache-pig

    0熱度

    1回答

    有9個字段的模式,我只需要兩個字段(6,7即5美元,6美元),我想計算$ 5的平均值,我想按升序排序$ 6,所以如何完成這項任務可以幫助我。 輸入數據: N368SW 188 170 175 17 -1 MCO MHT 1142 N360SW 100 115 87 -10 5 MCO MSY 550 N626SW 114 115 90 13 14 MCO MSY 550 N252WN 107

    0熱度

    1回答

    我想在元組中搜索字符串'15200'(不含引號)。因此,對於以下輸入: 15200 15200,4000 4000,15200 4000,15200,4025 152000 152000,4000 4000,152000 4000,152000,4025 115200 115200,4000 4000,115200 4000,115200,4025 輸出應該是: 1520

    0熱度

    1回答

    首先,我運行了這段代碼並完成了。現在,我想從時間戳中提取僅包含數據和時間的日期。但是,我不知道該怎麼做。我用GetYear,GetMonth,GetDay但總是彈出一個錯誤。 define Quantile datafu.pig.stats.Quantile('21'); data_raw = LOAD 'California/2016/March-2016.csv' USING PigStora

    0熱度

    1回答

    我有3列,一個id列和2個名稱列。有時,2個名稱列的值相同,但其中一列是大寫字母,另一列是小寫字母。我該如何刪除這些值相同(或具有相似字符)但套管不同? 例: 一個=負載txt文件 一個= FOREACH一個生成ID,NAME1,NAME2 電流輸出: id1, james, JAMES id2, tom, Tom id3, Jim, Bob id4, Bill, billy 預期輸出:

    0熱度

    2回答

    我的Python UDF代碼: #commaFormat- format a number with commas, 12345-> 12,345 @outputSchema("numformat:chararray") def commaFormat(num): return '{:,}'.format(num) 我的豬腳本: DEFINE CSVExcelStorage or

    0熱度

    2回答

    我試圖產生以下... 輸入 396124436476092416,「想想你活着的生活,但不要覺得這麼難受它傷害生命是一種真正的禮物,但在同樣它是一種詛咒「 Obey_Jony09 396124440112951296,‘00:00 #MAW’,WesleyBitton A = LOAD '/user/root/data/tweets.csv' USING PigStorage(',') as (u

    0熱度

    1回答

    我是Apache Pig的新手。 我不確定Pig上有哪些輸入文件格式可用。 例如,Impala上提供Parquet,Text,Avro,RCFile和SequenceFile。 (見:How Impala Works with Hadoop File Formats) 我猜文本文件是好的,因爲數據加載示例使用.log文件。 (見:Getting Started) 我還發現AvroStorage p

    1熱度

    1回答

    我嘗試從hbase表加載所有數據。其中有10093條記錄。 這裏是我的豬腳本 register 'zookeeper.jar' register 'hbase-server-0.98.6-cdh5.3.2.jar' result = LOAD 'hbase://clf_transaction_train' USING org.apache.pig.backend.hadoop.hb

    0熱度

    1回答

    我有一個有段落的列。這是一個10000行的列,我需要找到哪個列有真正的電子郵件ID。我用columnname matches '(.*)@(.*).(.*)',這也給我輸出像'@nelson' '.... @kumar...'等我不需要。我只需要一個真正的電子郵件ID。請讓我知道如何使用Apache Pig代碼在如此巨大的段落中找到它。 謝謝:)

    1熱度

    1回答

    您好我有以下代碼豬: leafNodes = FOREACH records GENERATE 'buckets' AS bucket_url, MultiConcat(localziedName, ' in ', localizedLocation) AS title, ToJSONString( 'url', url, 'title', Mu