2017-02-18 48 views
1

我正在嘗試使用Mel頻率倒譜系數(MFCC)和動態時間規整(DTW)來實現語音識別模塊。如何將MFCC係數應用於DTW

我將信號(x(n))劃分爲25ms的幀,重疊10ms,並找出每幀的MFCC參數。 我的主要疑問是如何在這種情況下執行DTW。 假設有M幀和N(13)個MFCC係數。

所以我有一個M×N矩陣。 現在我該如何計算DTW?

回答

2

MxN的矩陣可以表示爲1D向量MxN長度。

所以,您已通過曼哈頓,歐氏,佈雷-柯蒂斯等距離計算PATTERN1

p1[M*N], len=i, 'silence-HHHEEEEELLLLLOOOOOOOO-silence' sound; 

然後,第二

​​

然後DTW,所得到的輸出2D矩陣,將有最小重量的路徑。