我是編程界的新手,我正在學習Hadoop。在寫豬查詢時,我得到了意想不到的輸出結果。我試過的查詢是 D = LOAD 'data1' AS (a:int,b:int);
S = LOAD 'data2' AS (c:int,d:int);
J = JOIN D by a, S by c;
DUMP J;
我插入outup和數據集。我的要求是隻獲得數據1和第一列數據2(組合)的第一欄,但我
我有一些關於ElasticSearch的數據需要在HDFS上發送。我試圖使用豬(這是我第一次使用它),但我有一些問題需要爲我的數據定義正確的模式。首先,我嘗試使用選項'es.output.json=true'和org.elasticsearch.hadoop.pig.EsStorage加載JSON,並且我可以正確加載/轉儲數據,並使用STORE A INTO 'hdfs://path/to/sto
我有Azure上的HDInsight羣集和hdfs(Azure存儲)中的.csv文件。 使用apache-pig我想處理這些文件並將輸出存儲在配置單元表中。爲了實現這一點,我已經寫了下面的腳本:成功 A = LOAD '/test/input/t12007.csv' USING PigStorage(',') AS (year:chararray,ArrTime:chararray,DeptTim