我有以下設置:遠程機器'D'包含Postgres DB。遠程機器'C'包含一個數據處理平臺。氣流在本地機器「L」上運行。預計來自數據庫的簡單選擇查詢將導致大小約爲1 GB的數據集。氣流:將大數據集從數據庫傳輸到遠程機器
我想創建一個氣流DAG,其中一個任務在DB上運行查詢並將結果傳輸到'C'。但GenericTransfer操作員的官方文檔說:
「這意味着要用於適合內存的小型數據集。」
如何可靠地將大數據集從'D'轉移到'C'?
我有以下設置:遠程機器'D'包含Postgres DB。遠程機器'C'包含一個數據處理平臺。氣流在本地機器「L」上運行。預計來自數據庫的簡單選擇查詢將導致大小約爲1 GB的數據集。氣流:將大數據集從數據庫傳輸到遠程機器
我想創建一個氣流DAG,其中一個任務在DB上運行查詢並將結果傳輸到'C'。但GenericTransfer操作員的官方文檔說:
「這意味着要用於適合內存的小型數據集。」
如何可靠地將大數據集從'D'轉移到'C'?
在Python中嘗試循環塊,它可以生成並執行有限數據的查詢。
上限= 256
環{
query (with limit)<b>
limit +=256
}
您可以DBAPI的executemany延長了運營商由於您使用的是Postgres插入DATAS