我想預測給定N
先前幀的(灰度)視頻的下一幀 - 在Keras中使用CNN或RNN。關於時間序列預測和Keras的大多數教程和其他信息在他們的網絡中使用一維輸入,但是我的將是3D (N frames x rows x cols)
使用Keras進行視頻預測(時間序列)
我目前真的不確定這個問題的好方法是什麼。我的想法包括:
使用一個或多個LSTM層。這裏的問題是,我不確定他們是否適合拍攝一系列圖像,而不是一系列標量作爲輸入。內存消耗是否會爆炸?如果可以使用它們:我如何在Keras中使用它們以獲得更高的尺寸?
在輸入(先前視頻幀的堆疊)上使用3D卷積。這引發了其他問題:當我沒有進行分類而是預測時,爲什麼這會有所幫助?如何堆疊圖層使網絡輸入的尺寸爲
(N x cols x rows)
和輸出(1 x cols x rows)
?
我對CNN/RNN和凱拉斯很新,希望能夠向正確的方向提出任何建議。
非常有用的信息,特別是TimeDistributed層。我的視頻數據的形狀是3D,因爲只有一個頻道,我應該重新塑造它嗎?另外,你可能會提供一些關於如何連接圖層的方法(僞)代碼?尺寸仍然讓我困惑。非常感謝你! – Isa
我還有一些其他問題。僞代碼指的是nb_of_classes,但我不需要分類,但是需要在下一個時間步。有沒有更簡單的解決方案?我不需要轉移學習,但只需要一個簡單的網絡,取N個前面的幀並預測下一個幀。 – Isa
我會回答明天嗎?好? –