我正在與一家當前將其所有應用程序數據存儲在AWS Redshift羣集中的小公司合作。我一直負責對Redshift羣集中的數據進行數據處理和機器學習。AWS Redshift數據處理
我需要做的第一個任務需要基於一些相當簡單的SQL邏輯,將該集羣中現有數據基本轉換爲一些新表。在MSSQL環境中,我只需將所有邏輯放入參數化存儲過程中,並通過SQL Server代理作業進行安排。然而,在Redshift中sprocs似乎並不是什麼東西。我將如何着手創建SQL作業並將其安排在AWS環境中每晚(例如)運行?
我的另一個任務涉及開發一個機器學習模型(Python)並在該Redshift數據庫中對記錄進行評分。如果計劃從該Redshift羣集中提取數據並對其進行評分,然後將其插入到同一羣集上的新表中,那麼託管我的python邏輯並執行數據處理的最佳方式是什麼?看起來好像我可以創建一個EC2實例,在那裏託管我的Python腳本,並在那裏進行處理,並安排腳本通過cron運行?
我看到大量看起來可能相關的AWS(和非AWS)產品(AWS膠水/數據管道/ EMR),但有很多我都有點不知所措。預先感謝您的幫助!
請顯示您的代碼。 –
這是一個非常廣泛的問題,並且有許多方法可以實現您正在談論的內容。您通常會詢問ETL(提取,轉換,加載),因此我建議您搜索相關書籍和文檔。 –
另外,由於您是SO的新手,因此如果您始終關注問題,則可能不知道它更有可能獲得答案。我更多地看到,一個集中的問題會有一個普遍的答案,而不是一個普遍的問題得到一個集中的答案。 –