1)Greenplum不是香草postgres,但它是相似的。它有一些新的語法,但總的來說,高度一致。
2)的Greenplum本身提供了一些所謂的「gpfdist」,它可以讓你聽,你要想在一個文件中把指定端口上(但該文件已被分裂)。你想要可讀的外部表。它們非常快。語法是這樣的:
CREATE READABLE EXTERNAL TABLE schema.ext_table
(thing int, thing2 int)
LOCATION (
'gpfdist://server:port1/path/to/filep1.txt',
'gpfdist://server:port2/path/to/filep2.txt',
'gpfdist://server:port3/path/to/filep3.txt'
) FORMAT 'text' (delimiter E'\t' null 'null' escape 'off') ENCODING 'UTF8';
CREATE TEMP TABLE import AS SELECT * FROM schema.ext_table DISTRIBUTED RANDOMLY;
如果你發揮自己的規則,你的數據是乾淨的,加載可極快。
3)你不需要python來做到這一點,儘管你可以通過使用python來啓動gpfdist進程,然後發送一個命令到psql來創建外部表並加載數據,從而實現自動化。取決於你想要做什麼。
感謝您的有用評論。有沒有Greenplum的在線文檔?我確定在他們的網站上找不到任何東西。 – bijeshn 2011-05-27 04:46:27
你想要的管理員指南,可以在這裏找到。 http://gpn.greenplum.com/download.php還有一個論壇不是非常活躍,但許多Greenplum工程師閱讀。如果你喜歡我的回答,請將它投票:) – 2011-06-01 18:43:18