apache-pig

    0熱度

    1回答

    我有兩個數據集,data1和data2。 data2具有如下的數據, a1:u:11#eve:f:6 a1:u:12#eve:f:6 a1:u2:13#eve:f:3 a1:u1:12#eve:s:6 a1:u1:11#eve:f:6 這裏:以及#是分隔符。我產生data2終於爲, LOAD '$data2' USING PigStorage(':') AS (ad:

    0熱度

    1回答

    我是編程界的新手,我正在學習Hadoop。在寫豬查詢時,我得到了意想不到的輸出結果。我試過的查詢是 D = LOAD 'data1' AS (a:int,b:int); S = LOAD 'data2' AS (c:int,d:int); J = JOIN D by a, S by c; DUMP J; 我插入outup和數據集。我的要求是隻獲得數據1和第一列數據2(組合)的第一欄,但我

    0熱度

    1回答

    我假設在Java中char []和byte []應該能夠被無縫地轉換並且被視爲相同的權利?

    0熱度

    1回答

    DUMP avg_2000 DUMP avg_2001 DUMP avg_2002 OUTPUT:1345.45 OUTPUT:1256.45 OUTPUT:1456.45 請指導我如何劃分avg_2000/avg_2002豬

    0熱度

    1回答

    另外,可以爲此設置的最大值是多少。請讓我知道在設置此標誌時需要考慮的任何先決條件。 謝謝!

    0熱度

    2回答

    我想在兩個文件加入後過濾記錄。 文件BX-Books.csv包含書籍數據。並且文件BX-Book-Ratings.csv包含書評分數據,其中ISBN是來自兩個文件的共同列。文件之間的內部連接使用此列完成。 我想獲得2002年出版的書籍。 我已經使用了下面的腳本,但我得到了0條記錄。 grunt> BookXRecords = LOAD '/user/pradeep/BX-Books.csv' US

    0熱度

    1回答

    的過程我有數據。我正在使用Pig到流程此數據。 PigSummarize數據將存儲在Hive中。然後配置單元表使用Sqoop在RDBMS中導出。現在我需要自動化所有這個過程。這是可能的,我會寫所有這些任務3特定的方法在的MapReduce,然後運行該的MapReduce工作,而所有這些任務由一個執行一個。 對於創建MapReduce作業,我想使用。 NetSDK。所以我的問題是這是可能的,並且如果

    0熱度

    1回答

    我有一個管道分隔的文本文件,比如說abc.txt。在不同的記錄中有不同的列數。記錄中的列數可以是100,80,70,60。我需要根據第三列值拆分abc.txt。如果第三列的值爲「A」,那麼該記錄將轉到A.txt,如果「B」然後是B.txt。需要編寫一個PIG腳本。

    0熱度

    1回答

    我有一些關於ElasticSearch的數據需要在HDFS上發送。我試圖使用豬(這是我第一次使用它),但我有一些問題需要爲我的數據定義正確的模式。首先,我嘗試使用選項'es.output.json=true'和org.elasticsearch.hadoop.pig.EsStorage加載JSON,並且我可以正確加載/轉儲數據,並使用STORE A INTO 'hdfs://path/to/sto

    1熱度

    1回答

    我有Azure上的HDInsight羣集和hdfs(Azure存儲)中的.csv文件。 使用apache-pig我想處理這些文件並將輸出存儲在配置單元表中。爲了實現這一點,我已經寫了下面的腳本:成功 A = LOAD '/test/input/t12007.csv' USING PigStorage(',') AS (year:chararray,ArrTime:chararray,DeptTim