apache-pig

    0熱度

    1回答

    我是一個拉丁豬新手。我想處理下面的文件,並計算最多發生的詞。 Hadoop | is | an | open | source |基於Java |編程|框架| that |支持| |處理| |存儲|非常|大|數據|集|在| a |分佈式|計算|環境。 該文件包含一個|作爲分隔符。

    1熱度

    1回答

    在Apache Pig(版本0.16.x)中,通過某個數據集字段的現有值列表篩選數據集的最有效方法是什麼? 例如, 輸入(每@ inquisitive_mind的尖端已更新):一個線分隔文件每行一個值 my_codes.txt '110' '100' '000' sample_data.txt '110', 2 '110', 3 '001', 3 '000', 1 所需輸出 '1

    0熱度

    1回答

    嘿我試圖過濾以下輸入: Id Num 102369 100 623589 200 102369 300 103333 300 103333 100 ... 預計輸出關係應該會減少,僅包括所有ID - 爲Id和Num == 300之間存在的關係Num關係: Id Num 102369 100 102369 300 103333 300 103333 100 我已經嘗試

    0熱度

    1回答

    我得到了我的分組按部門no.The步驟遵循的數據後卡住 grunt> A = load '/home/cloudera/naveen1/hive_data/emp_data.txt' using PigStorage(',') as (eno:int,ename:chararray,job:chararray,sal:float,comm:float,dno:int); grunt> B = g

    0熱度

    1回答

    我編譯Apache豬0.16在HBase的1.2.5如下: ant jar -Dhadoopversion=23 -Dhbase95.version=1.2.5 現在我想運行豬代碼如下: A = LOAD 'test.csv' USING PigStorage('\t') as (id:chararray,note:chararray); STORE A into 'hbase://tes

    0熱度

    1回答

    我想將一個xlsx文件加載到豬關係中。該文件可以包含帶有「,」的數據作爲數據的一部分。所以我不能將其轉換爲CSV並加載它。所以我試圖把xlsx文件加載到一個pig關係中,並將其用於進一步處理。 但我不確定如何將xlsx文件加載到pig關係中。我嘗試了幾個選項,如下所示,但沒有成功。當我轉儲數據時,它不會提供任何可讀的輸出。在XLSX文件 的樣本數據 ColumnA ColumnB ColumnC

    0熱度

    1回答

    下面是輸入數據集。 col1,col2,col3,col4,col5 key1,111,1,12/11/2016,10 key2,111,1,12/11/2016,10 key3,111,1,12/11/2016,10 key4,222,2,12/22/2016,10 key5,222,2,12/22/2016,10 key6,333,3,12/30/2016,10 key7,11

    0熱度

    1回答

    應該是什麼下面的SQL查詢的豬等同腳本: SELECT fld1, fld2, fld3, SUM(fld4) FROM Table1 GROUP BY fld1, fld2, fld3; 對於表1: A B C 2 X Y Z A B C 3 X Y Z A B D 2 X Y Z A C D 2 X Y Z A C D 2 X Y Z A C D 2 X Y Z OUTP

    0熱度

    1回答

    我是一個初學者在豬,並試圖瞭解元組數據類型,我有如下文件: cat student.csv id,name,grade,contact_details s1234,Mohan,8,(Delhi,9811830) s2345,Nisha,10,(Delhi,257891) s3456,Anuj,12,(Delhi,9897212) s4567,vishal,14,(Delhi,98917

    0熱度

    1回答

    我想通過豬得到數據。有>文件中的8K領域,我想選擇前10條記錄每列: 目前,我只是加載整個表和拼寫出來的變量名,有一個相當於SQL的 select * from TABLE LIMIT 10; 在豬? 電流負載 data = load 'xsf://EXAMPLE/1' using SomePigLoader('2017-01-01','2017-01-03','ID1,ID2,ID3....')