apache-pig

0熱度

1回答

有9個字段的模式，我只需要兩個字段（6,7即5美元，6美元），我想計算$ 5的平均值，我想按升序排序$ 6，所以如何完成這項任務可以幫助我。輸入數據： N368SW 188 170 175 17 -1 MCO MHT 1142 N360SW 100 115 87 -10 5 MCO MSY 550 N626SW 114 115 90 13 14 MCO MSY 550 N252WN 107

0熱度

1回答

豬拉丁語中的正則表達式

我想在元組中搜索字符串'15200'（不含引號）。因此，對於以下輸入： 15200 15200,4000 4000,15200 4000,15200,4025 152000 152000,4000 4000,152000 4000,152000,4025 115200 115200,4000 4000,115200 4000,115200,4025 輸出應該是： 1520

0熱度

1回答

從豬的時間戳中提取日期

首先，我運行了這段代碼並完成了。現在，我想從時間戳中提取僅包含數據和時間的日期。但是，我不知道該怎麼做。我用GetYear,GetMonth,GetDay但總是彈出一個錯誤。 define Quantile datafu.pig.stats.Quantile('21'); data_raw = LOAD 'California/2016/March-2016.csv' USING PigStora

0熱度

1回答

如何比較PIG中的兩列並刪除任何相同的值，而不考慮大寫/小寫

我有3列，一個id列和2個名稱列。有時，2個名稱列的值相同，但其中一列是大寫字母，另一列是小寫字母。我該如何刪除這些值相同（或具有相似字符）但套管不同？例：一個=負載txt文件一個= FOREACH一個生成ID，NAME1，NAME2 電流輸出： id1, james, JAMES id2, tom, Tom id3, Jim, Bob id4, Bill, billy 預期輸出：

0熱度

2回答

無法存儲別名C，同時試圖使用Python UDF豬

我的Python UDF代碼： #commaFormat- format a number with commas, 12345-> 12,345 @outputSchema("numformat:chararray") def commaFormat(num): return '{:,}'.format(num) 我的豬腳本： DEFINE CSVExcelStorage or

0熱度

2回答

如何忽略數據字段中的「，」

我試圖產生以下... 輸入 396124436476092416，「想想你活着的生活，但不要覺得這麼難受它傷害生命是一種真正的禮物，但在同樣它是一種詛咒「 Obey_Jony09 396124440112951296，‘00:00 #MAW’，WesleyBitton A = LOAD '/user/root/data/tweets.csv' USING PigStorage(',') as (u

0熱度

1回答

Apache Pig上有哪些文件格式可用？

我是Apache Pig的新手。我不確定Pig上有哪些輸入文件格式可用。例如，Impala上提供Parquet，Text，Avro，RCFile和SequenceFile。（見：How Impala Works with Hadoop File Formats）我猜文本文件是好的，因爲數據加載示例使用.log文件。（見：Getting Started）我還發現AvroStorage p

1熱度

1回答

無法使用Pig加載來自hbase的數據

我嘗試從hbase表加載所有數據。其中有10093條記錄。這裏是我的豬腳本 register 'zookeeper.jar' register 'hbase-server-0.98.6-cdh5.3.2.jar' result = LOAD 'hbase://clf_transaction_train' USING org.apache.pig.backend.hadoop.hb

0熱度

1回答

如何在Apache Pig中查找包含大量單詞的列是否有真正的電子郵件ID？

我有一個有段落的列。這是一個10000行的列，我需要找到哪個列有真正的電子郵件ID。我用columnname matches '(.*)@(.*).(.*)'，這也給我輸出像'@nelson' '.... @kumar...'等我不需要。我只需要一個真正的電子郵件ID。請讓我知道如何使用Apache Pig代碼在如此巨大的段落中找到它。謝謝:)

1熱度

1回答

如何簡化相同的方法調用

您好我有以下代碼豬： leafNodes = FOREACH records GENERATE 'buckets' AS bucket_url, MultiConcat(localziedName, ' in ', localizedLocation) AS title, ToJSONString( 'url', url, 'title', Mu