我正在嘗試訓練lstm模型進行語音識別,但不知道要使用哪些訓練數據和目標數據。我正在使用LibriSpeech dataset,它包含音頻文件及其成績單。此時,我知道目標數據將是向量化的轉錄文本。至於訓練數據,我正在考慮使用每個音頻文件(或MFCC功能)的頻率和時間。如果這是解決問題的正確方法,那麼訓練數據/音頻將是多個數組,我將如何將這些數組輸入到我的lstm模型中?我需要將它們矢量化嗎?如何訓練lstm進行語音識別
謝謝!
我正在嘗試訓練lstm模型進行語音識別,但不知道要使用哪些訓練數據和目標數據。我正在使用LibriSpeech dataset,它包含音頻文件及其成績單。此時,我知道目標數據將是向量化的轉錄文本。至於訓練數據,我正在考慮使用每個音頻文件(或MFCC功能)的頻率和時間。如果這是解決問題的正確方法,那麼訓練數據/音頻將是多個數組,我將如何將這些數組輸入到我的lstm模型中?我需要將它們矢量化嗎?如何訓練lstm進行語音識別
謝謝!
要準備送入LSTM模型的語音數據集,您可以看到這個帖子 - Building Speech Dataset for LSTM binary classification以及Data Preparation。
作爲一個很好的例子,你可以看到這個帖子 - http://danielhnyk.cz/predicting-sequences-vectors-keras-using-rnn-lstm/。這篇文章談到如何使用RNN預測Keras中的向量序列- LSTM。
我相信你會發現這篇文章(https://stats.stackexchange.com/questions/192014/how-to-implement-a-lstm-based-classifier-to-classify-speech-files-using-keras)也很有幫助。