apache-pig

0熱度

1回答

我有兩個數據集，data1和data2。 data2具有如下的數據， a1:u:11#eve:f:6 a1:u:12#eve:f:6 a1:u2:13#eve:f:3 a1:u1:12#eve:s:6 a1:u1:11#eve:f:6 這裏:以及#是分隔符。我產生data2終於爲， LOAD '$data2' USING PigStorage(':') AS (ad:

0熱度

1回答

我通過在PIG中執行JOIN操作來發生錯誤？

我是編程界的新手，我正在學習Hadoop。在寫豬查詢時，我得到了意想不到的輸出結果。我試過的查詢是 D = LOAD 'data1' AS (a:int,b:int); S = LOAD 'data2' AS (c:int,d:int); J = JOIN D by a, S by c; DUMP J; 我插入outup和數據集。我的要求是隻獲得數據1和第一列數據2（組合）的第一欄，但我

0熱度

1回答

豬和蜂巢中Chararray和Bytearray的區別究竟是什麼？

我假設在Java中char []和byte []應該能夠被無縫地轉換並且被視爲相同的權利？

0熱度

1回答

如何劃分有豬隻有一個值表

DUMP avg_2000 DUMP avg_2001 DUMP avg_2002 OUTPUT：1345.45 OUTPUT：1256.45 OUTPUT：1456.45 請指導我如何劃分avg_2000/avg_2002豬

0熱度

1回答

如何在觸發豬作業的shell腳本中設置PIG_HEAPSIZE值

另外，可以爲此設置的最大值是多少。請讓我知道在設置此標誌時需要考慮的任何先決條件。謝謝！

0熱度

2回答

使用PIG加入後過濾數據

我想在兩個文件加入後過濾記錄。文件BX-Books.csv包含書籍數據。並且文件BX-Book-Ratings.csv包含書評分數據，其中ISBN是來自兩個文件的共同列。文件之間的內部連接使用此列完成。我想獲得2002年出版的書籍。我已經使用了下面的腳本，但我得到了0條記錄。 grunt> BookXRecords = LOAD '/user/pradeep/BX-Books.csv' US

0熱度

1回答

在CSV格式在自動化HDFS （天青HDInsight）豬，配置單元，Sqoop

的過程我有數據。我正在使用Pig到流程此數據。 PigSummarize數據將存儲在Hive中。然後配置單元表使用Sqoop在RDBMS中導出。現在我需要自動化所有這個過程。這是可能的，我會寫所有這些任務3特定的方法在的MapReduce，然後運行該的MapReduce工作，而所有這些任務由一個執行一個。對於創建MapReduce作業，我想使用。 NetSDK。所以我的問題是這是可能的，並且如果

0熱度

1回答

使用PIG腳本將一個文件拆分爲多個文件

我有一個管道分隔的文本文件，比如說abc.txt。在不同的記錄中有不同的列數。記錄中的列數可以是100,80,70,60。我需要根據第三列值拆分abc.txt。如果第三列的值爲「A」，那麼該記錄將轉到A.txt，如果「B」然後是B.txt。需要編寫一個PIG腳本。

0熱度

1回答

從ES加載數據並使用pig存儲爲HDro HDFS

我有一些關於ElasticSearch的數據需要在HDFS上發送。我試圖使用豬（這是我第一次使用它），但我有一些問題需要爲我的數據定義正確的模式。首先，我嘗試使用選項'es.output.json=true'和org.elasticsearch.hadoop.pig.EsStorage加載JSON，並且我可以正確加載/轉儲數據，並使用STORE A INTO 'hdfs://path/to/sto

1熱度

1回答

如何將pig輸出存儲到配置單元表？

我有Azure上的HDInsight羣集和hdfs（Azure存儲）中的.csv文件。使用apache-pig我想處理這些文件並將輸出存儲在配置單元表中。爲了實現這一點，我已經寫了下面的腳本：成功 A = LOAD '/test/input/t12007.csv' USING PigStorage(',') AS (year:chararray,ArrTime:chararray,DeptTim