1

當談到正常的人工神經網絡或任何標準機器學習技術時,我理解訓練,測試和驗證集應該是什麼(概念上和經驗法則比率)。但是,對於雙向LSTM(BLSTM)網絡,如何分割數據令我感到困惑。雙向LSTM(BLSTM)的訓練,測試和驗證集

我在嘗試改進由受監視的健康值組成的個別主題數據的預測。在最簡單的情況下,對於每個主題,有一個長時間系列值(> 20k值),並且該時間系列的連續部分根據主題的當前健康狀況從一組類別進行標記。對於BLSTM,網絡將同時訓練所有數據向前和向後。那麼問題是,如何爲一個主題分割時間序列?

  • 我不能只取最後的2,000個值(例如),因爲它們可能都屬於一個類別。
  • 我無法隨機將時間序列切碎,因爲然後學習和測試階段都是由不相關的塊組成。

最後,每個主題(據我所知)略有不同(但相似)的特點。所以,也許,因爲我有成千上萬的科目,我是否訓練一些,測試一些並驗證其他人?但是,由於存在主體間差異,如果我只考慮一個主題開始,我將如何設置測試?

回答

0

我認爲這與你的特定數據集有關,比一般的Bi-LSTMs更多。

你在混淆分裂訓練/測試數據集與分割特定樣本中的序列。看起來你有很多不同的主題,這構成了不同的樣本。對於標準的培訓/測試拆分,您可以按照您在上一段中的建議,在各科目之間拆分數據集。

對於任何種類的RNN應用程序,您都不會沿着您的時間順序進行分割;您將整個序列作爲單個樣本輸入到Bi-LSTM。所以這個問題真的會變成這樣一種模型是否適合你的問題,在序列中的特定點上有多個標籤。您可以使用LSTM模型的從序列到序列的變體來預測序列中每個時間點屬於哪個標籤,但是又不會將序列分成多個部分。

相關問題