etl

-1熱度

1回答

0熱度

1回答

針對ETL的Apache NIFI

如何使用Apache NIFI作爲具有源作爲HDFS &目標的Oracle數據庫的ETL過程。 Apache NIFI與其他ETL工具（如Pentaho，Datastage等）相比有什麼限制。

0熱度

1回答

Hive與表中數據的比較

我進入DW測試並需要比較源數據到目標數據。源數據存儲在hive/RDBMS中，而目標數據加載到Hbase中。我是Hbase的新手。任何人都可以幫助我採取我可以採取的方法。我正在尋找的是與「MINUS」類似的功能。可能嗎？

2熱度

1回答

將數據從json保存到orc的Apache nifi問題

我正在使用NIFI jsontoavro-> avrotoorc-> puthdfs。但面臨以下問題。 1）單個ORC文件正在保存在HDFS上。我沒有使用任何壓縮。 2）當我嘗試訪問這些文件時，他們給出了像緩衝存儲器一樣的錯誤。感謝您的幫助。

0熱度

2回答

根據數據庫查詢的結果繼續流式傳輸

我正在開發ETL。第一步是文本文件輸入，它將來自「附加輸出字段」的一些元數據添加到流中，包括文件名和上次修改。我必須向DB進行查詢，以驗證具有最後修改日期時間的文件名是否已經被處理。如果是這樣，流必須停止，並且下一步不能被處理。這可能嗎？我用google搜索了一下，發現沒有例子。

1熱度

1回答

如何在excel表中編寫etl測試用例

我沒有一個確切的想法如何編寫ETL測試用例。我做了以下3個場景。 1.source n target count should be same. 2.check duplicates in target 3.column mapping for source and target. 怎麼會寫測試用例mapping.I真的很confused.please help.please給我一個樣本測

0熱度

1回答

克隆數據庫進程

我需要自動克隆數據庫，其克隆再經過我需要重命名一些列名。 Salesforce已有傾倒紅移，但列名不匹配了另一個程序。紅移是我們對所有事物的唯一真理。

0熱度

2回答

Talend處理交易的正確方式

我需要在我的ETL過程中處理交易。我正在從文件加載一些數據到我的數據庫，並且我需要管理提交和回滾。如果我的數據文件中的任何行有錯誤或模式錯誤，我需要執行回滾，否則我需要將數據放入數據庫表並提交更改。所以我準備好了工作，一切似乎都奏效了。但是我在ETL過程中起了作用，我想問一下，有沒有更有效的方法來解決這個問題？這裏的工作模式：

-1熱度

2回答

如何字比較字，如果匹配率是70％以上，那麼這些記錄使用Informatica

加載到目標我有一個數據集，這種格式 Column1: Mumbai is a capital of MH 如果輸入Mumbai is of MH有一個70％比賽進行到數據集刺痛，這樣的數據集記錄添加到目標表所示： Target Table: Column1: Mumbai is a capital of MH 如果輸入的是唯一Mumbai MH有不到70％的比賽，因此記錄不添加到目標

1熱度

1回答

最佳ETL包在Python

我有2個用例：提取物，從Oracle/PostgreSQL的/紅移/ S3/CSV轉換和加載到我自己的紅移集羣排定作業做日常運行/每週（INSERT + TABLE或INSERT + NONE選項更可取）。我目前正在使用： SQLAlchemy的的提取物（作品以及一般）。用於轉換和加載的PETL（適用於較小的數據集，但對於〜50m +行很慢，並且與數據庫的連接超時）。調度組件的內部工具（它