數據倉庫基於配置單元,現在我們需要將數據從配置單元轉換爲greenplum,我們希望使用帶有gphdfs的外部表,但它看起來出了點問題。 表創建腳本如何使用greenplum外部表訪問hadoop hdfs
CREATE EXTERNAL TABLE flow.http_flow_data(like flow.zb_d_gsdwal21001)
LOCATION ('gphdfs://mdw:8081/user/hive/warehouse/flow.db/d_gsdwal21001/prov_id=018/day_id=22/month_id=201202/data.txt')
FORMAT 'TEXT' (DELIMITER ' ');
當我們運行
bitest=# select * from flow.http_flow_data limit 1;
ERROR: external table http_flow_data command ended with error. sh: java: command not found (seg12 slice1 sdw3:40000 pid=17778)
DETAIL: Command: gphdfs://mdw:8081/user/hive/warehouse/flow.db/d_gsdwal21001/prov_id=018/day_id=22/month_id=201202/data.txt
我們的Hadoop是1.0和Greenplum的是4.1.2.1
我想知道,如果我們需要配置一些關於製作gp access hadoop
gpdhs被添加到4.1,但這是一個非常舊的版本。我認爲問題是URL說「mdw:8081」。這應該是Hadoop集羣的名稱節點。 mdw通常是Greenplum的主控主機名。您還需要確保分段主機可以連接到Hadoop數據節點。 –