在AWS Data Pipeline中創建聚合表

我有存儲在Redshift中的粒度數據。我想要定期創建一個聚合表。我正在尋求使用AWS Data Pipeline來執行此操作。在AWS Data Pipeline中創建聚合表

比方說，我有一個所有航班的表。我想要生成一張機場表格以及來自那裏的航班數量。但是因爲這個表格很大（也許我想加入其他表格的內容），所以我決定從它中構建一個派生表格。

我設置了我的數據管道。它看起來像這樣

它是運行這個SQL在Create Table Sql領域

CREATE TABLE IF NOT EXISTS data.airports (
airport_id int not null 
,flights int null);

我能救它（沒有錯誤），但之後，我將其激活，該表從未表演向上。我已經檢查了涉及的（少數）參數，但沒有什麼突出的顯然是錯誤的。即便如此，我調整了一些，但仍然沒有桌子。

我該開始看什麼？

來源

2016-10-18 ScottieB

首先要看的是數據管道，以確保沒有錯誤。（我認爲你已經完成了這一步）

你現在應該檢查已經在redshift上運行的sql/load命令，以確保有一些按預期方式運行，並且它們已經成功。

要做到這一點，一個簡單的方法是在aws控制檯中打開羣集。從那裏你可以點擊標籤「查詢」來查看運行的SQL和「載入」查看運行的複製命令等。

也可以通過查詢運行看不使用AWS相同的細節：爲負載

select query, trim(querytxt) as sqlquery 
from stl_query 
order by query desc limit 50;

，看誤差爲最近期負載

select d.query, substring(d.filename,14,20), 
d.line_number as line, 
substring(d.value,1,16) as value, 
substring(le.err_reason,1,48) as err_reason 
from stl_loaderror_detail d, stl_load_errors le 
where d.query = le.query 
and d.query = pg_last_copy_id();

來源

2016-10-20 20:22:21

在AWS Data Pipeline中創建聚合表

回答

相關問題