2017-07-26 37 views
0

我在greenplum中有外部和內部表。外部表格指向hdfs一個csv文件。 Hdfs中的這個csv文件每小時獲得一張表的完整數據。 在greenplum的內部表格中增量加載數據的最佳方式是什麼?greenplum中的增量負載

+0

這取決於SLA和需要多長時間加載整個使用表gphdfs。截斷和插入可能是最好的方法。插入到target_table中select * from external_table其中,column>'value'可能是最好的方法。或者您可能需要爲每個負載動態創建一個外部表。 –

+0

我檢查過使用gphdfs能夠在外部表中加載整個數據的速度非常快。但是,不是截斷整個表格想要在Greenplum中進行增量加載。 – vkumar

+0

我想你只是回答你自己的問題。 –

回答

0

在greenplum中創建維度表,它存儲最後加載的時間點,比如時間戳或任何數據點。

使用上面的維度表,你可以以這樣的方式返回一個新的文件到達的時候一小時的evf,它會加載到stage/extrenal表,然後用上一個從維度表加載的參數,它會選擇只有相關/新記錄才能進一步處理。

感謝, 肖卜哈

+0

請閱讀https://stackoverflow.com/help/how-to-answer –