apache-pig

0熱度

1回答

在HQL，我們有 JOIN weather ON (weather.Year = flight.Year AND weather.Month = flight.Month and weather.Day=flight.DayofMonth) 在豬拉丁，是否有可能以適應它變成一個查詢？或者我必須單獨做並將它們結合起來？

-1熱度

1回答

如何爲製表符分隔的數據編寫PIG UDF並在左側添加時間戳？

我想爲下面的示例輸入文件編寫PIG UDF，並且我還指定了預期的輸出。請爲udf模板提供相同的幫助，或者告訴我是否有辦法在沒有UDF的情況下執行此操作。我的樣品輸入： 2014-01-23T08:12:09.259443 Device Type make year -- ------------ --------- -----------------------

0熱度

2回答

僅加載4個字段的2個字段 - Pig to Hive表

請幫助建議。場景：使用Pig將數據從HDFS存儲到Hive。我有從mySQL中挖出的文件，它有4個字段Ord_Id, Cust_Id, Cust_name, Ord_date。我喜歡將僅2個字段Ord_Id和Cust_Id存儲到Hive。我怎麼能這樣做？請建議。下面的代碼不能執行： pig -useHCatalog orders = LOAD '<HDFS_file_path>' USAG

1熱度

1回答

傳遞袋作爲輸入UDF在豬

我試圖通過數據庫（最終）作爲輸入。 dump final; 給出： - (4,john,john,David,Banking ,4,M,20-01-1994,78.65,345000,Arkansasdest1,Destination) (4,john,john,David,Banking ,4,M,20-01-1994,78.65,345000,Arkanssdest2,Destinati

0熱度

2回答

在配置單元表中添加唯一值

每當我輸入任何記錄時，我想爲我的配置單元添加一個唯一值，該值不應該在整個配置單元表中重複使用。我無法找到任何解決方案或任何功能。在我的情況下，我想要使用拉丁語pig輸入蜂巢中的記錄。請幫忙。

1熱度

1回答

使用SUM時出現豬腳本錯誤（）

運行此PIG腳本時出現以下錯誤....請幫助!!! 在此先感謝。 "ERROR 1000: Error during parsing. Scalars can be only used with projections" MOVIES = LOAD '/MOVIES' using PigStorage(',') as (mid:double, mn:chararray, yr:int, rt:

0熱度

2回答

阿帕奇豬根據條件商店

我正在閱讀一個csv文件，並將這些數據分組後，我正在做一個計數操作。如果計數爲0，是否有任何方法將數據存儲到文件夾名稱中，如果計數大於0，那麼將數據存儲到文件夾中的名稱會很好。我試着用下面的代碼，但它沒有發生。 CODE : STORE countVal INTO '/user/cloudera/good' IF countVal > 0 ;

0熱度

1回答

如何將大型XML轉換爲java中的字符串

作爲PIG腳本的一部分，我需要獲取使用UDF生成的XML並且XML太大（大約1.5GB）。目前我使用下面的代碼，XML轉換爲字符串 StringWriter sw = new StringWriter(); XMLWriter output = new XMLWriter(sw, xmlFormat); try { output.write(document);

0熱度

1回答

ElephantBird錯誤1070：--->類沒有得到閱讀

我的問題是類似這樣的懸而未決的問題： [https://stackoverflow.com/questions/42140344/elephantbird-dependency-jars][1] 我已經註冊了所有的罐子強制elephantbird工作。 REGISTER '/MyJARS/elephant-bird-hadoop-compat-4.1 REGISTER '/MyJARS/json

1熱度

2回答

使用過濾器和在豬羣中使用

我是豬語法的新手，想知道是否有人可以提供將此SQL代碼翻譯成豬的提示。 SELECT column1, column2, SUM(column3) FROM table WHERE column5 = 100 GROUP BY column2; 到目前爲止，我有： data = LOAD....etc. filterColumn = FILTER data BY column5 = 1