2017-08-27 120 views
-2

我有以下文件tax_cal我想在豬加載:如何使用多個分隔符將文件加載到豬?

101,5 | 2; 3 | 2

102,3 | 1; 4.5 | 2; 4 | 1

103,2 | 1; 5 | 2; 5.6 | 3

輸出:

101,5 | 2,3 | 2

102,3 | 1,4.5 | 2,4 | 1

103,2 | 1,5 | 2,5.6 | 3

此外,我將這個輸出文件傳遞給python UDF來計算總價格。

我該如何做到這一點?

+0

你可以添加你的文件的第一行,你需要使用豬加載 –

+0

抱歉,我沒有得到你嗎? –

回答

0

所以豬的基本加載命令如下,但我不確定你的文件樣本數據類型。試着看下面的內容,並檢查是否可以按照你需要的方式修改它。

A = LOAD '(your_file_name)' USING PigStorage(',') AS (bill_number:INT, tax:chararray); 
+0

沒有這樣做只會在'|'後給予我值,我下面輸出:(,2; 3) (,2; 4) (,2; 2.5)我不知道如何分開這個文件:( –

+0

嗯,我不明白你的文本文件, 5行你的文本文件 –

+0

嗨,這是我想加載解釋它的文件第一列是條例草案編號:int和第二列是具有tax_details的數組,例如5 | 2其中5代表價格和2是稅。我必須在pig中加載這個文件,然後通過UDF傳遞它來計算總價 –

相關問題