2016-10-18 81 views
0

我有存儲在Redshift中的粒度數據。我想要定期創建一個聚合表。我正在尋求使用AWS Data Pipeline來執行此操作。在AWS Data Pipeline中創建聚合表

比方說,我有一個所有航班的表。我想要生成一張機場表格以及來自那裏的航班數量。但是因爲這個表格很大(也許我想加入其他表格的內容),所以我決定從它中構建一個派生表格。

我設置了我的數據管道。它看起來像這樣

enter image description here

它是運行這個SQL在Create Table Sql領域

CREATE TABLE IF NOT EXISTS data.airports (
airport_id int not null 
,flights int null); 

我能救它(沒有錯誤),但之後,我將其激活,該表從未表演向上。我已經檢查了涉及的(少數)參數,但沒有什麼突出的顯然是錯誤的。即便如此,我調整了一些,但仍然沒有桌子。

我該開始看什麼?

回答

1

首先要看的是數據管道,以確保沒有錯誤。 (我認爲你已經完成了這一步)

你現在應該檢查已經在redshift上運行的sql/load命令,以確保有一些按預期方式運行,並且它們已經成功。

要做到這一點,一個簡單的方法是在aws控制檯中打開羣集。從那裏你可以點擊標籤「查詢」來查看運行的SQL和「載入」查看運行的複製命令等。

也可以通過查詢運行 看不使用AWS相同的細節:爲負載

select query, trim(querytxt) as sqlquery 
from stl_query 
order by query desc limit 50; 

,看誤差爲最近期負載

select d.query, substring(d.filename,14,20), 
d.line_number as line, 
substring(d.value,1,16) as value, 
substring(le.err_reason,1,48) as err_reason 
from stl_loaderror_detail d, stl_load_errors le 
where d.query = le.query 
and d.query = pg_last_copy_id();