我是使用不同工具進行ETL任務的ETL開發人員。我們所有的項目都提出了同樣的問題:在數據倉庫建立之前和ETL構建數據移動之前,數據分析的重要性。通常我使用純SQL完成了數據分析(即查找不良數據,數據異常,計數,不同數值等),因爲ETL工具沒有提供一個好的選擇(我們的工具中有一些數據質量組件,但它們是不那麼複雜)。一種選擇是使用R programming language或SPSS Modeler等這種類型的工具Exploratory Data Analysis。但通常這些類型的工具不可用,或者如果有數百萬行數據,則不具備這些工具的資格。如何將純SQL用於探索性數據分析?
如何做到使用SQL這樣的分析嗎?有沒有可用的幫手腳本?在數據清理和ETL之前,你如何做這種探索性數據分析?