如何將MFCC係數應用於DTW

我正在嘗試使用Mel頻率倒譜系數（MFCC）和動態時間規整（DTW）來實現語音識別模塊。如何將MFCC係數應用於DTW

我將信號（x（n））劃分爲25ms的幀，重疊10ms，並找出每幀的MFCC參數。我的主要疑問是如何在這種情況下執行DTW。假設有M幀和N（13）個MFCC係數。

所以我有一個M×N矩陣。現在我該如何計算DTW？

MxN的矩陣可以表示爲1D向量MxN長度。

所以，您已通過曼哈頓，歐氏，佈雷-柯蒂斯等距離計算PATTERN1

p1[M*N], len=i, 'silence-HHHEEEEELLLLLOOOOOOOO-silence' sound;

然後，第二

然後DTW，所得到的輸出2D矩陣，將有最小重量的路徑。

2017-02-25 23:09:57 BIOjack

回答