1
我正在嘗試使用Mel頻率倒譜系數(MFCC)和動態時間規整(DTW)來實現語音識別模塊。如何將MFCC係數應用於DTW
我將信號(x(n))劃分爲25ms的幀,重疊10ms,並找出每幀的MFCC參數。 我的主要疑問是如何在這種情況下執行DTW。 假設有M幀和N(13)個MFCC係數。
所以我有一個M×N矩陣。 現在我該如何計算DTW?
我正在嘗試使用Mel頻率倒譜系數(MFCC)和動態時間規整(DTW)來實現語音識別模塊。如何將MFCC係數應用於DTW
我將信號(x(n))劃分爲25ms的幀,重疊10ms,並找出每幀的MFCC參數。 我的主要疑問是如何在這種情況下執行DTW。 假設有M幀和N(13)個MFCC係數。
所以我有一個M×N矩陣。 現在我該如何計算DTW?
MxN的矩陣可以表示爲1D向量MxN長度。
所以,您已通過曼哈頓,歐氏,佈雷-柯蒂斯等距離計算PATTERN1
p1[M*N], len=i, 'silence-HHHEEEEELLLLLOOOOOOOO-silence' sound;
然後,第二
然後DTW,所得到的輸出2D矩陣,將有最小重量的路徑。