2014-04-01 122 views
4

我正在嘗試查找有關AWS Data Pipeline支持的數據源的文檔。我需要做的是將SQL Server RDS數據導出到S3。我發現很多文檔都說Data Pipeline可以使用RDS作爲源,但我看到的每個示例僅適用於MySQL RDS。AWS數據管道支持SQL Server RDS

有沒有人有數據管道和SQL Server RDS的經驗?如果是這樣,你用什麼數據節點連接到SQL Server RDS(例如MySqlDataNode,SqlDataNode)?

最終目標是將數據從SQL Server RDS移至AWS Red Shift。

謝謝

回答

1

我們放棄了爲此使用數據管道。我建議使用普通的ETL工具。如果你正在運行任何Windows服務器,那麼SSIS可能是最好的選擇,否則看看Pentaho或Talend。

你有沒有非ASCII數據?將數據從SQL Server的UTF16-LE轉換爲UTF8是我最頭疼的事情。我在博客上寫了一些解決方案(http://blog.joeharris76.com/2013/09/migrating-from-sql-server-to-redshift.html)。

0

數據管道似乎還只是內置了對MySQL RDS的支持。

一個選項是啓動一個EMR集羣,並使用sqoop。您可以使用sqoop導入到s3中,並使用COPY命令(或數據管道)將其直接加載到Redshift中。

有一個數據管道EMRResource。您需要創建一個引導任務,在主服務器上下載並設置sqoop並獲取相關的jdbc驅動程序。

此外,EMRActivity似乎想要一個jar文件,當我想要從主腳本上的shell腳本運行sqoop命令。我不確定這是多麼容易解決。也許與EMRResource的ShellCommandActivity?

相關問題