etl

    -1熱度

    1回答

    假設我們有200名學生和6個科目。輸入列 Name | Subject1 | Subject2 | ... through Subject 6 輸出只有3列: Name | Subject | Highest Score 我們需要受明智最高的射手,主題名稱一起和得分作爲輸出。我們如何在Informatica級別執行此操作?我們如何在不使用union的情況下在SQL級別執行此操作? 樣本數據

    0熱度

    1回答

    如何使用Apache NIFI作爲具有源作爲HDFS &目標的Oracle數據庫的ETL過程。 Apache NIFI與其他ETL工具(如Pentaho,Datastage等)相比有什麼限制。

    0熱度

    1回答

    我進入DW測試並需要比較源數據到目標數據。源數據存儲在hive/RDBMS中,而目標數據加載到Hbase中。我是Hbase的新手。任何人都可以幫助我採取我可以採取的方法。我正在尋找的是與「MINUS」類似的功能。可能嗎 ?

    2熱度

    1回答

    我正在使用NIFI jsontoavro-> avrotoorc-> puthdfs。但面臨以下問題。 1)單個ORC文件正在保存在HDFS上。我沒有使用任何壓縮。 2)當我嘗試訪問這些文件時,他們給出了像緩衝存儲器一樣的錯誤。 感謝您的幫助。

    0熱度

    2回答

    我正在開發ETL。第一步是文本文件輸入,它將來自「附加輸出字段」的一些元數據添加到流中,包括文件名和上次修改。 我必須向DB進行查詢,以驗證具有最後修改日期時間的文件名是否已經被處理。如果是這樣,流必須停止,並且下一步不能被處理。 這可能嗎?我用google搜索了一下,發現沒有例子。

    1熱度

    1回答

    我沒有一個確切的想法如何編寫ETL測試用例。我做了以下3個場景。 1.source n target count should be same. 2.check duplicates in target 3.column mapping for source and target. 怎麼會寫測試用例mapping.I真的很confused.please help.please給我一個樣本測

    0熱度

    1回答

    我需要自動克隆數據庫,其克隆再經過我需要重命名一些列名。 Salesforce已有傾倒紅移,但列名不匹配了另一個程序。紅移是我們對所有事物的唯一真理。

    0熱度

    2回答

    我需要在我的ETL過程中處理交易。我正在從文件加載一些數據到我的數據庫,並且我需要管理提交和回滾。如果我的數據文件中的任何行有錯誤或模式錯誤,我需要執行回滾,否則我需要將數據放入數據庫表並提交更改。所以我準備好了工作,一切似乎都奏效了。但是我在ETL過程中起了作用,我想問一下,有沒有更有效的方法來解決這個問題? 這裏的工作模式:

    -1熱度

    2回答

    加載到目標我有一個數據集,這種格式 Column1: Mumbai is a capital of MH 如果輸入Mumbai is of MH有一個70%比賽進行到數據集刺痛,這樣的數據集記錄添加到目標表所示: Target Table: Column1: Mumbai is a capital of MH 如果輸入的是唯一Mumbai MH有不到70%的比賽,因此記錄不添加到目標

    1熱度

    1回答

    我有2個用例: 提取物,從Oracle/PostgreSQL的/紅移/ S3/CSV轉換和加載到我自己的紅移集羣 排定作業做日常運行/每週(INSERT + TABLE或INSERT + NONE選項更可取)。 我目前正在使用: SQLAlchemy的的提取物(作品以及一般)。用於轉換和加載的PETL(適用於較小的數據集,但對於〜50m +行很慢,並且與數據庫的連接超時)。 調度組件的內部工具(它