我有,其結構類似下面文件:豬處理不正確的數據
ID,姓名,地址
1,"Amrit,kumar",India
2,"Vaibhav,arora",USA
3,"Deepika,kumar",Germany
顯然,如果我給pigStorage(「」)這三個字段將被分成4個字節,數據溢出。 替代方案:
我試着存錢罐罐子,但問題仍然存在,仍然是數據spills.Please找到腳本
A11 = LOAD 'File.csv.gz' USING org.apache.pig.piggybank.storage.CSVLoader() as (column:type)
我試着更換fucntiion以及我在下面35K行的變化並不適用於所有的rows.Any流汗走位如何將數據仍然在這種情況下,well.Column值溢出得到轉移到下一個column.Please找到簡稱鏈接下方。
how can i ignore " (double quotes) while loading file in PIG?
我試圖CSVEXCEL存儲和CSV裝載機爲好。
請提出我在這裏可以做的事情。我想要在單個列中具有名稱值。
你可以做的是寫一個正則表達式,將取代'所有情況下, '有說'|'除了是之間的那些' 「 」''像1,「 A,b」,C'應該成爲'1 | 「A,b」 | C'那麼你可以使用'PigStorage'加載數據。 – philantrovert
@ philantrovert我不能在這裏改變原始文件。 – codaholic