2017-07-05 70 views
0

所以我有2個數據集。用分佈填充缺失值

在第一個我有一天的每個小時值。例如:

Date     Value 
05/07/2017 01:00  5 
05/07/2017 02:00  10 
05/07/2017 03:00  5 

在第二數據集I只具有總的每天

Date     Value 
05/07/2017   40 

,所以我想通過所述第一數據集的相同的分佈的總的第二數據集的分佈。類似這樣的:

Date     Value 
05/07/2017 01:00  10 
05/07/2017 02:00  20 
05/07/2017 03:00  10 

我該怎麼做?我使用R併爲第一個數據集創建了一個時間序列。

+0

如果解決了您的問題,請將答案標記爲已接受。 – luchonacho

回答

1

您可能需要檢查R的mice軟件包,該軟件包專門用於缺失數據插補。在你的情況下,可能通過關於類似(時間)屬性明智的樣本來推測缺失值的knn方法可能會起作用。

第二次看,也許有點更復雜的程序可以引導跨越不同時間的值,然後填補缺失值,你將不得不找到一個隨機(時間)組合(假設你使用隨機抽取每個時間特定的時間池或分佈)這些總數將達到您的總和。

+0

你可以給我一些見解,我尋找? –

+0

對不起,你認爲什麼是見解?哪種方法似乎更吸引你? –

+0

如果我理解正確,我認爲第一個,因爲第一個數據有一個重複每天的模式。 –