2012-06-04 71 views
0

數據倉庫基於配置單元,現在我們需要將數據從配置單元轉換爲greenplum,我們希望使用帶有gphdfs的外部表,但它看起來出了點問題。 表創建腳本如何使用greenplum外部表訪問hadoop hdfs

CREATE EXTERNAL TABLE flow.http_flow_data(like flow.zb_d_gsdwal21001) 
LOCATION ('gphdfs://mdw:8081/user/hive/warehouse/flow.db/d_gsdwal21001/prov_id=018/day_id=22/month_id=201202/data.txt') 
FORMAT 'TEXT' (DELIMITER '  '); 

當我們運行

bitest=# select * from flow.http_flow_data limit 1; 
ERROR: external table http_flow_data command ended with error. sh: java: command not found (seg12 slice1 sdw3:40000 pid=17778) 
DETAIL: Command: gphdfs://mdw:8081/user/hive/warehouse/flow.db/d_gsdwal21001/prov_id=018/day_id=22/month_id=201202/data.txt 

我們的Hadoop是1.0和Greenplum的是4.1.2.1

我想知道,如果我們需要配置一些關於製作gp access hadoop

回答

0

你打開端口(8081)來偵聽month_id = 201202目錄嗎?

0

我會仔細檢查管理指南,我想你可以使用gphdfs,但直到Greenplum的4.2

+0

gpdhs被添加到4.1,但這是一個非常舊的版本。我認爲問題是URL說「mdw:8081」。這應該是Hadoop集羣的名稱節點。 mdw通常是Greenplum的主控主機名。您還需要確保分段主機可以連接到Hadoop數據節點。 –

0

你檢查,以確保安裝Java,您Greenplum的系統上?因爲這是gphdfs工作所必需的。