amazon-data-pipeline

    -1熱度

    1回答

    我有一個EC2實例可以安排很多任務(使用crontab)。 其中一些執行每1分鐘,5分鐘,等等。 我想將所有cron任務移動到AWS服務。 我想知道哪些AWS服務可以給我最好的解決方案。 我發現2個服務,可以安排類似的cron任務: AWS Data Pipeline AWS Lambda 其中哪些可以給我最好的解決辦法?

    1熱度

    2回答

    我有一個計劃的 AWS數據管道在執行過程中部分失敗。我修正了這個問題,而沒有以任何方式修改管道(在S3中更改了腳本)。但是,似乎沒有從頭開始重新啓動管道的好方法。 我試過去激活/重新激活管道,但之前的「完成」節點沒有重新啓動。這是預期的;根據docs,這隻會暫停和取消暫停Pipeline的執行,這不是我們想要的。 我試圖重新運行節點(稱之爲x)單獨的一個,但它並沒有尊重依賴關係:無節點x取決於重新

    0熱度

    1回答

    我有一個Datapipeline,我使用Redshift SqlActivity從Redshift表中讀取並寫入另一個Redshift表。 我想知道是否有可能從SqlActivity e.g引用input和output場 INSERT INTO #{output1} (field1, field2) SELECT field1, SUM(field2) FROM #{input1} GROU

    0熱度

    1回答

    我試圖將位於S3上的40GB文件(分割爲大約90MB的520個部分)放入mysql中。我創建了aws數據管道S3到MySQL。 加載之前,我在Hive中處理這些記錄,然後在S3上存儲輸出文件。文件中的某些記錄包含\ N來表示空值。當我嘗試加載這樣的記錄數據時,管道失敗。但是可以使用SQOOP加載它,因爲它可以在加載到MYSQL時處理NULL值。 有沒有人有一個想法,我是否可以使用數據管道從S3加載

    0熱度

    1回答

    我需要構建一個數據管道,它從CSV文件(存儲在S3上)獲取輸入,並在Aurora RDS表中「更新」記錄。我理解用於批量記錄插入的標準格式(開箱即用模板),但是對於記錄更新或刪除,是否有任何標準方式在SqlActivity中擁有這些語句? 我可以編寫更新語句,但是引用CSV輸入的方式,它們只是問號(?),沒有任何索引列的自由。 讓我知道是否可以用這種方式使用數據管道?如果是的話,我可以參考CSV列

    0熱度

    1回答

    我試圖通過數據管道在Redshift羣集中運行SQL活動。在SQL活動之後,幾乎沒有日誌需要以紅移的形式寫入表[例如受影響的行數,錯誤消息(如果有的話)]。 要求: 如果SQL活動成功完成,所提到的表將與「錯誤」一欄爲空, 否則如果SQL活動的任何錯誤失敗所寫的,特定的錯誤消息是需要被更新成Redshift表中的'error'列。 我們可以通過管道實現嗎?如果是的話,我們如何能做到這一點? 謝謝,

    2熱度

    2回答

    我有一種情況,我正在使用數據管道從S3中存儲的csv文件導入數據。對於初始數據加載,數據管道執行良好。 現在我需要保持此數據庫最新並同步到內部數據庫。這意味着將有一組CSV文件進入S3,這將是對現有記錄,新記錄或刪除的更新。我需要通過數據管道對RDS進行更新。 問題 - 數據管道可以用於這種目的嗎?或者只是用於一次性數據加載?如果它可以用於增量更新,那麼我該如何去做。 任何幫助非常感謝!

    0熱度

    1回答

    我有一個CSV,它有一個變量結構,我只想從中取前4個值。存儲在S3中的CSV中有7到8場,我想借此只是第4,我已經嘗試使用下面的事先準備好的聲明: INSERT INTO locations (timestamp, item_id, latitude, longitude) VALUES (?, ?, ?, ?); 但是我得到: Parameter index out of range (5 >

    0熱度

    1回答

    所以我想將整個DynamoDB錶轉儲到S3。這tutorial給出了一個很好的解釋如何做到這一點。給它一個測試,它的工作...偉大的 但是現在我想用它在我的生產數據是相當大的(> 100GB)。我希望它能夠快速運行。很顯然,我的DynamoDB表的讀吞吐量是一個因素,但是有沒有辦法確保數據管道盡其所能。我對這些並不是很熟悉,安裝後的架構視圖中有實例類型和實例數的區域,但會增加這些減少我的管道時間?

    0熱度

    1回答

    是否有可能在aws數據管道下運行整個依賴樹的子部分。至於我能理解的是沒有辦法做到這一點。 任何一個都必須重新運行整個管道或只是一些單一的sql活動。隨着sql活動的數量開始增加,這變得很難。 ..