aws-glue

    2熱度

    1回答

    我想將AWS Glue Data Catalog用作Spark SQL的Metastore。我通過AWS控制檯as instructed here啓動了EMR羣集。 我能夠從spark-shell中看到所有的粘貼目錄表,但不能從Zeppelin中看到。 是否有任何屬性需要在Zeppelin屬性配置中設置? 在此先感謝。

    2熱度

    1回答

    AWS膠文檔中有關定價寫着: 膠水ETL作業至少需要2周的DPU。默認情況下,AWS Glue 爲每個ETL作業分配10個DPU。您每1小時收取0.44美元的DPU小時 ,增量爲1分鐘,四捨五入爲最接近的分鐘,每個ETL工作的最短持續時間爲 。 我想減少分配給我的ETL作業的DPU數量。我在膠水控制檯中搜索這個選項。但我沒有找到它。你可以讓我知道我該怎麼做? 謝謝

    0熱度

    1回答

    是否可以從AWS Glue作業調用R腳本?我也需要傳遞參數給它。

    1熱度

    2回答

    我試圖運行自定義Python腳本,該腳本導入AWS Glue上的外部純Python庫(psycopg2),但失敗。我檢查了CloudWatch日誌,發現失敗的原因是: Spark在HDFS中的幾個文件夾上的權限檢查失敗,其中一個包含我上傳到S3的外部python庫(s3:// path /到/ psycopg2),這需要-x權限: org.apache.hadoop.security.Access

    0熱度

    1回答

    ETL作業完成後,在AWS Glue腳本中調用存儲過程的最佳方式是什麼? 我使用PySpark從S3獲取數據並存儲在臨時表中。在這個過程之後,需要調用一個存儲過程。該存儲過程將數據從臨時表加載到相應的MDS表中。 如果我必須在ETL作業完成後調用存儲過程,那麼最好的方法是什麼?如果我考慮AWS lambda,有沒有什麼方法可以在ETL之後通知lambda。

    1熱度

    1回答

    我在aws膠水控制檯中有嚮導生成的膠水作業。我沒有更改任務生成的默認腳本。它從posgres數據庫表(源)獲取數據並寫入另一個postgres數據庫(目標)。我在ide中選擇了啓用書籤。每當任務運行時,即使在源中沒有插入,更新或刪除時,它也會將完整的源數據庫表複製到目標表。我明白在啓用書籤的情況下,它應該只複製上次運行源中的更改,但這不會發生。因此,如果源表中有4行,則每次運行任務時都會將所有4行

    7熱度

    3回答

    以下是方面一些要點我怎麼會有事的設置: 我已經上傳到S3的CSV文件和膠履帶設置來創建表和模式。 我有一個膠水作業設置,它使用JDBC連接將膠水錶中的數據寫入Amazon Redshift數據庫。該工作還負責映射列和創建紅移表。 通過重新運行一項工作,我得到了redshift中的重複行(如預期的那樣)。但是,在插入新數據之前,是否有辦法替換或刪除行,使用密鑰或膠水中的分區設置? import sy

    0熱度

    1回答

    我剛剛玩弄Glue,但尚未成功在現有S3存儲桶中創建新表。該作業將無誤地執行,但S3中從未有任何輸出。 下面是自動生成的代碼是什麼: glueContext.write_dynamic_frame.from_options(frame = applymapping1, connection_type = "s3", connection_options = {"path": "s3://glu

    1熱度

    1回答

    我有AWS膠水管理的數據目錄,而我的開發人員確實在我們與新表或者我們使用的是爬蟲更新每天保持新的分區S3桶任何更新分區健康。 但是,我們還需要自定義的表格屬性。在我們的配置單元中,我們將每個表的數據源作爲表屬性添加到數據目錄中的表中,但每次運行爬網程序時,它都會覆蓋自定義表的屬性,如描述。 我做錯了什麼?或者這是來自AWS Glue的錯誤?

    0熱度

    1回答

    因此,我正在嘗試的是使用AWS Glue對S3存儲桶中的數據進行爬網。存儲爲嵌套的JSON和路徑數據是這樣的: s3://my-bucket/some_id/some_subfolder/datetime.json 當運行默認的抓取工具(沒有自定義分類),它基於路徑劃分,並如預期反序列化JSON,不過,我想擺脫時間戳文件名稱以及單獨的字段中。目前Crawler忽略它。 例如,如果我上運行履帶: