etl

0熱度

1回答

我有一個問題給你。如果我在Databricks中構建了一個將數據加載到BigQuery中的ETL，但是我希望在每次運行ETL之前擦除BigQuery表，那麼這可能嗎？對新手問題抱歉！謝謝！！！

0熱度

1回答

Databricks ETL - > BigQuery，WRITE_TRUNCATE不起作用

我在Databricks上運行一個ETL，寫入BigQuery。我試圖讓代碼「WRITE_TRUNCATE」，也就是每次運行時都要寫數據。這涉及更改BigQuery配置。我試過一堆東西，但還沒有得到它的工作。這裏是我當前的代碼片段： import com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration val conf = sc.ha

2熱度

3回答

ETL管道在AWS與S3作爲datalake如何處理增量更新

我在AWS設置ETL管道如下 input_rawdata - > S3 - >拉姆達 - >觸發火花ETL（通過AWS膠）腳本 - >輸出（s3，parquet文件）我的問題是讓我們假設上面是數據的初始負載，我該如何設置運行每天（或每小時）增加新行或更新現有記錄的增量批次 a。）我如何繼續添加到相同的s3鑲木地板文件。以便隨後的presto db查詢產生最新的數據。 b。）如何處理重複記錄獲取查

0熱度

1回答

將.txt文件中的值轉換並加載到Oracle表| unix |甲骨文

好讓我們說，我有以下的.txt文件中包含總額3行： cat my_file_to_load.txt 993408 Sep 01 12:46:46 2017 Sep 01 12:46:51 2017 的文件是具體數據從一個巨大的日誌文件中提取。第一行是success_rows的數量，第二行是start_time，第三行是end_time。我在這種情況下，要求是「格式」中的數據因此，爲

0熱度

1回答

用戶定義的JSON輸入到使用PDI的期望的JSON輸出元數據注入

我已經創建了一個轉換，它將從'.js'文件中讀取Flat Json數據，並根據元數據輸入字段名稱修改JSON字段（鍵）元數據目標字段名稱由用戶指定。此外，我正在使用ETL元數據注入步驟將元數據輸入注入步驟：JSON輸入，選擇/重命名值和Json輸出。請找到這都是我爲元數據注入了JSON輸入創建的轉換：改造1：要獲得其中包含JSON文件並調用JSON轉型執行人的目錄。轉型2：獲取元數據輸入，

0熱度

1回答

在Pentaho中使用PostgreSQL

我在Pentaho步驟之一中創建了一個DB連接。我正在將我的環境從Oracle遷移到PostgreSQL。對PostgreSQL來說是全新的，我無法擺脫這些錯誤。加入如下： select t.contract, t.calender, t.mspprovider, t.mspcustomer, t.objectname, t.granularity

1熱度

3回答

自動導入SQL Server中的CSV文件

我目前正在使用SSIS將一大堆CSV文件定期導入到我們的系統中。這些導入過程使用SQL Server代理進行安排 - 應該有一個愉快的結局。然而，我們收到數據的供應商之一喜歡每隔一段時間更改一次文件格式（感覺像是一個月兩次），在SSIS中實施這些更改是一個極大的痛苦。對我來說，將這些導入到SQL Server中的方式有沒有那麼痛苦？我的要求相當簡單：文件格式爲CSV，它們用逗號分隔，並且用

1熱度

3回答

如何在IBM DB2 IMPORT命令中添加動態文件名路徑？

我正在使用DB2實用程序處理從CSV到DB2的ETL過程。挑戰在於在導入命令中將動態文件名稱指定爲db2變量。下面是示例代碼， connect to database; CREATE OR REPLACE VARIABLE filenamePath VARCHAR(225); SET filenamePath= concat(concat('Z:/directory/file_',ts_fm

0熱度

2回答

SAS DI LAG1的替代方案？

嘗試使用SAS中的LAG功能複製遷移到SAS DI中的一段代碼，但在SAS DI中似乎並沒有相同的功能。目前使用SAS DI 4.21，目標是儘快提高到4.9。所以我的問題是，是否有在SAS DI複製下面的代碼的另一種方式： DATA work.dm_chg_bal; SET tmp_bal_chg; FORMAT dt2 date9.; acct_id2 = LAG1(acct_id)

0熱度

1回答

Pentaho的壺值轉換

我想微秒轉換成數據： 6000 - > 1997年2月12日（像這樣）。這意味着新的字段包含年 - 月 - 日，時，分，秒，毫秒 THX。