etl

    0熱度

    1回答

    我有一個問題給你。如果我在Databricks中構建了一個將數據加載到BigQuery中的ETL,但是我希望在每次運行ETL之前擦除BigQuery表,那麼這可能嗎?對新手問題抱歉!謝謝!!!

    0熱度

    1回答

    我在Databricks上運行一個ETL,寫入BigQuery。我試圖讓代碼「WRITE_TRUNCATE」,也就是每次運行時都要寫數據。這涉及更改BigQuery配置。 我試過一堆東西,但還沒有得到它的工作。這裏是我當前的代碼片段: import com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration val conf = sc.ha

    2熱度

    3回答

    我在AWS設置ETL管道如下 input_rawdata - > S3 - >拉姆達 - >觸發火花ETL(通過AWS膠)腳本 - >輸出(s3,parquet文件) 我的問題是讓我們假設上面是數據的初始負載,我該如何設置運行每天(或每小時)增加新行或更新現有記錄的增量批次 a。)我如何繼續添加到相同的s3鑲木地板文件。以便隨後的presto db查詢產生最新的數據。 b。)如何處理重複記錄獲取查

    0熱度

    1回答

    好讓我們說,我有以下的.txt文件中包含總額3行: cat my_file_to_load.txt 993408 Sep 01 12:46:46 2017 Sep 01 12:46:51 2017 的文件是具體數據從一個巨大的日誌文件中提取。 第一行是success_rows的數量,第二行是start_time,第三行是end_time。 我在這種情況下,要求是「格式」中的數據因此,爲

    0熱度

    1回答

    我已經創建了一個轉換,它將從'.js'文件中讀取Flat Json數據,並根據元數據輸入字段名稱修改JSON字段(鍵)元數據目標字段名稱由用戶指定。 此外,我正在使用ETL元數據注入步驟將元數據輸入注入步驟:JSON輸入,選擇/重命名值和Json輸出。 請找到這都是我爲元數據注入了JSON輸入創建的轉換: 改造1:要獲得其中包含JSON文件並調用JSON轉型執行人的目錄。 轉型2:獲取元數據輸入,

    0熱度

    1回答

    我在Pentaho步驟之一中創建了一個DB連接。我正在將我的環境從Oracle遷移到PostgreSQL。對PostgreSQL來說是全新的,我無法擺脫這些錯誤。加入如下: select t.contract, t.calender, t.mspprovider, t.mspcustomer, t.objectname, t.granularity

    1熱度

    3回答

    我目前正在使用SSIS將一大堆CSV文件定期導入到我們的系統中。這些導入過程使用SQL Server代理進行安排 - 應該有一個愉快的結局。然而,我們收到數據的供應商之一喜歡每隔一段時間更改一次文件格式(感覺像是一個月兩次),在SSIS中實施這些更改是一個極大的痛苦。 對我來說,將這些導入到SQL Server中的方式有​​沒有那麼痛苦?我的要求相當簡單: 文件格式爲CSV,它們用逗號分隔,並且用

    1熱度

    3回答

    我正在使用DB2實用程序處理從CSV到DB2的ETL過程。挑戰在於在導入命令中將動態文件名稱指定爲db2變量。 下面是示例代碼, connect to database; CREATE OR REPLACE VARIABLE filenamePath VARCHAR(225); SET filenamePath= concat(concat('Z:/directory/file_',ts_fm

    0熱度

    2回答

    嘗試使用SAS中的LAG功能複製遷移到SAS DI中的一段代碼,但在SAS DI中似乎並沒有相同的功能。 目前使用SAS DI 4.21,目標是儘快提高到4.9。 所以我的問題是,是否有在SAS DI複製下面的代碼的另一種方式: DATA work.dm_chg_bal; SET tmp_bal_chg; FORMAT dt2 date9.; acct_id2 = LAG1(acct_id)

    0熱度

    1回答

    我想微秒轉換成數據: 6000 - > 1997年2月12日(像這樣)。 這意味着新的字段包含年 - 月 - 日,時,分,秒,毫秒 THX。