etl

    3熱度

    1回答

    我嘗試使用SSIS包將一個csv文件導入到SQL Server表中時,出現了一個非常特殊的情況。 csv文件中的數據可以包含雙引號和逗號。因此,帶逗號的數據用雙引號引起來,雙引號用額外的雙引號轉義。我使用了文本限定符來成功處理最初的周圍引號。但是,在某些情況下,數據格式化的格式類似於我無法處理的「」「Anne」「,Annabelle」。數據中額外的雙引號似乎會導致逗號終止該字段。我試圖使用派生列轉

    2熱度

    1回答

    我有200多個MSSQL表,並且希望將數據傳輸到Azure Data Lake Storage。 我認爲的一種方法是對動態數據流使用SSIS,即創建表名變量,並對錶名和每個表運行數據流執行foreach循環。然而,這種方法似乎是錯誤的,雖然文件是在Data Lake存儲中創建的,並且正確的方案數據不會由於錯誤的映射而被傳輸。 是否有任何通用的方式來創建一個動態數據流並傳輸大量的表數據?

    0熱度

    1回答

    我使用Looker管理存儲在Amazon RedShift數據庫中的數據。儘管Looker具有快速登機功能,但我希望使用Tableau更好地實現可視化。有沒有辦法將Tableau連接到Looker數據庫。 (P.S:我不希望將Tableau直接連接到RedShift/S3,因爲這會將我的數據公開給Tableau服務器)。謝謝。

    0熱度

    1回答

    我有一個表result_slalom,其中數據通過Pentaho的ETL作業填充。 當ETL第一次運行時,它會創建版本-1。 現在,如果數據在新計算後發生變化,它將成爲版本-2。 我只需要在計算版本-2中進行更改,並且在result_slalom表中不應超過2個版本。 (版本1和版本2) 所以邏輯是: 檢查表存在 Ø When data exists and existing version is

    2熱度

    1回答

    我正在處理將用於將數據從Excel文件導入到SQL Server的SSIS包。我目前的掙扎是想辦法讓SSIS軟件包準確地引入一個excel文件,而不必事先知道它的名稱。我有一個同時包含0和n excel文件的目錄。我只想拉入最早創建時間的文件。這可能嗎? 我正在使用Visual Studio 2015構建SSIS包。我的數據庫是SQL Server 2016

    0熱度

    1回答

    我有一個subscription表和一個payments表,我需要加入。 我試圖在2個選項之間做出決定,性能是一個關鍵考慮因素。 以下兩個選項中哪一個表現更好? 我正在使用Impala,並且這些表很大(數百萬行)我只需要爲每個id和date分組(因此爲row_number()分析函數)獲得一行。 我已經縮短了的查詢來說明我的問題: OPTION 1: WITH cte AS (

    3熱度

    1回答

    我正在將管道分隔的平面文件加載到臨時表中。在加載過程中,SSIS腳本組件在一行上執行一些操作。它可以根據另一個字段中的值在一個字段中設置標誌,爲某些列添加前綴或應用格式。例如,如果缺少日期,則該字段被分配爲默認日期。 (如果Row.EndDate_isNull,則Row.EndDate = defaultDate) 當需要將相同的轉換應用於一系列行時,這些腳本變得很麻煩。例如,醫療記錄文件可以用三

    0熱度

    2回答

    我試圖批量插入一個csv到SQL服務器中的表。問題是,數據與目標表的列不匹配。目標表有多個在源文件中找不到的審覈列。我找到的解決方案是插入視圖。代碼很簡單: from sqlalchemy import create_engine engine = create_engine('mssql+pyodbc://[DNS]') conn = engine.connect() sql = "BUL

    1熱度

    2回答

    我有一個管道分隔的文本文件,它是360GB壓縮文件(gzip)。 它有超過1,620列。我不能準確顯示字段名,但這裏是它基本上是什麼: primary_key|property1_name|property1_value|property800_name|property800_value 12345|is_male|1|is_college_educated|1 嚴重的是,有超過這些屬性名

    2熱度

    1回答

    從服務器運行ssis包時,我得到以下錯誤。 Data Flow Task:Error: Excel Source failed the pre-execute phase and returned error code 0xC0202009 Data Flow Task :Error: SSIS Error Code DTS_E_OLEDBERROR . An OLE DB error has o