2016-09-18 19 views
1

我們有小的hadoop和Greenplum集羣。
當前數據流水線流程是:關鍵HDB - 如何從HAWQ推送數據內部/外部可讀表格到Greenplum

External table >> hadoop-hawq external readbale table >>hawq internal table. 

輸出: 1.我們試圖使用延伸Greenplum的數據管道。基本上可以將HAWQ內部表或外部可讀表數據直接推入greenplum。 原因是因爲我們想編輯我們的文件。另外,HAWQ不支持更新和刪除。是否有任何替代方法來處理或推送數據。請指導。

2.How通過GPDB外部表訪問HDFS數據與gphdfs協議

先謝謝了!

回答

2

如果你想在HAWQ內部表數據推送到Greenplum數據引擎,您可以:

1)HAWQ內部表卸載數據使用寫入外部表上HDFS到文件。這裏是一個做卸載的例子:http://gpdb.docs.pivotal.io/4380/admin_guide/load/topics/g-unloading-data-using-a-writable-external-table.html

2)然後使用可讀的外部表將數據加載到Greenplum數據庫,使用gphdfs,gpfdist等協議。有關詳細信息,請參閱http://gpdb.docs.pivotal.io/4320/admin_guide/load.html

如果要將HAWQ中可讀外部表中的數據推送到Greenplum數據庫,可以像在HAWQ中那樣直接在Greenplum數據庫中使用可讀的外部表。

對於gphdfs,這裏有一些例子,這將有助於: http://gpdb.docs.pivotal.io/4380/admin_guide/load/topics/g-example-1-greenplum-file-server-gpfdist.html

相關問題