2015-04-03 51 views
0

一行數據看起來像如何爲Hive中的不同列指定不同的分隔符?

"!Next?" (1994)      Italy 

我需要創建3列。

  1. 是封閉與""
  2. 發佈日期是封閉與()
  3. 國家那裏的電影生產

我需要爲每個列指定不同的分隔符的電影名稱。

一件重要的事 - 我從文件/home/ap/Downloads/country.list

加載數據這將是巨大的,如果能沿着解釋查詢的一點點。

在此先感謝...

+0

爲什麼不先格式化文件,以便您可以有三個具有相同分隔符的列? – amow 2015-04-03 07:28:15

+0

它有近20,000條記錄的60Mb文件,我該怎麼做 – 2015-04-03 11:24:29

回答

0

使用這種CMD

cat YOUR_FILE_HERE|sed 's/"\(.*\)"\s*(\(.*\))\s*\([^\s].*\)/\1^A\2^A\3/g' > OUTPUT_FILE 

然後加載這個OUTPUT_FILE您的蜂巢表。

記住:

我用\001作爲分隔符here.If您更改默認的表的字段終止子,用它來代替^A在我的CMD。
而且^Actrl-v輸入,然後ctrl-a而不是^A輸入。

相關問題