我使用HCatalog讀取和寫入數據,從豬腳本蜂巢如下攆表: A = LOAD 'customer' USING org.apache.hcatalog.pig.HCatLoader();
B = LOAD 'address' USING org.apache.hcatalog.pig.HCatLoader();
C = JOIN A by cmr_id,B by cmr_id;
ST
我讀了很多關於hadoop的數據格式,目前似乎明白,根據您使用的軟件包,最先進的格式是ORC(在Hortonworks上得到很好的支持)或Parquet(在Cloudera上得到很好的支持)。 現在大多數初學者的例子/教程都包含簡單的csv數據。每行一個條目。通常他們將CSV導入類似SQL的結構(Hive),而不將其另存爲ORC。 JSON似乎也受Hadoop支持,但not so well int