2017-07-14 24 views
0

實施例:填充在紅移同一條目具有兩個CSV

的CSV 1:鍵,D1,D2,D3

的CSV 2:鍵,D4,D5

預期上紅移:鍵, d1,d2,d3,d4,d5

這可能嗎?如果你知道如何去做,告訴我,但我主要關心的是如果可以開始。

回答

0

這樣直接複製是不可能的,你有以下幾種選擇:

1)使用紅移頻譜服務 - 創建外部架構,並與連接查詢它來獲取所需的數據結構中的紅移。缺點是這是一個按次付費的服務。

2)使用Python或Athena處理CSV,將它們合併到所需的數據結構中,然後複製它。

3)將它們分別導入到兩個臨時表中,然後加入到最終表中。不足之處在於,如果數據很大,則預留2個空間(一個用於登臺表,另一個用於結果表)可能會有問題,但您可以簡單地使用連接創建視圖。

+0

謝謝,即時嘗試避免第二個,並試圖做第三。現在,我知道我會看看頻譜服務。 – Marco

0

直接,不,但您可以在原始ETL過程中加入對象,或在Redshift中使用臨時表,然後實現它並刪除臨時表。

+0

謝謝,我想我現在可以弄清楚它是如何實現的,基本上我想知道是否可以避免通過整個ETL過程來做到這一點,並在紅移一側解決它。這樣我不必將數據移動到EMR以便進行內部連接並稍後加載。 – Marco

+0

只需在redshift中進行連接,創建一個新的連接的輸出表,然後將其輸入EMR – Henry