2014-05-09 54 views
1

我有2個CSV格式的數據集。兩者都包含一個Unix時間戳。一個包含業務相關數據,另一個包含天氣數據。按最近的時間戳合併2個csv文件

我想要做的是通過最近的時間戳導入業務相關數據內部的天氣數據。由於沒有任何時間戳完全匹配,我希望每個企業都有最近天氣記錄的數據。

我需要找到每個記錄的兩個時間戳之間的最小差異並插入該案例的數據。

回答

1

據我來說,最好的可能的方法是

  • 上傳兩個表到數據庫
  • 創建日期和時間維度,並DATE_ID和TIME_ID更新到兩個表。
  • 將業務數據的主鍵更新爲密切相關的天氣數據。下面所示

    更新weather_data設置weather_data.id = 爲例(SELECT從business_data id其中business_data.timestamp_column < = weather_data.timestamp_column ORDER BY business_data.timestamp_column DESC LIMIT 1);

這會讓您將業務數據主鍵轉換爲便於您加入的天氣數據。

好運與這一個!