2017-05-29 115 views
1

我正在構建BI項目的Azure IoT解決方案。現在,我有一個應用程序,每個設置的時間窗口將一個.csv blob發送到Azure Blob存儲,併爲其增加名稱。所以一段時間後,我將在我的存儲文件中有'data1.csv','data2.csv','data3.csv'等。Azure物聯網數據倉庫更新

現在我需要將這些數據加載到數據庫中成爲使用Azure Stream Analytics作業的倉庫。這個問題可能是.CSV文件將有重疊的數據。它們將每隔4小時發送一次,幷包含過去24小時的數據。我需要始終只讀取最後一個文件(最高編號)並準備查找,以便正確更新倉庫中的數據。使Stream Analytics只讀最新文件並更新數據庫記錄的最佳方法是什麼?

編輯: 澄清 - 我完全意識到ASA不能成爲ETL工作。我的問題是,這將是對我的情況下,最好的辦法,使用物聯網工具

+0

AFAIK ASA是流數據,不能退或快進在「流」所以不可能解決重疊問題。也許Azure Data Factory是一個更好的解決方案。或將.csv文件存儲在Azure Data Lake Store中,並使用Azure Data Lake Analytics創建轉換數據的作業。 –

回答