如在幾本書描述的,識別的孤立的單詞的過程包括以下的:如何在識別過程中改變未識別語音信號的長度?
- 對於一組給定的信號(模板),確定特徵向量用於 每個模板 - 矩陣M×N,其中M是特徵(MFCC,ZCR,...)的編號 ,並且N是幀數。
- 用一些算法訓練模板,如ANN,HMM,GMM,SVM。
- 通過訓練模型識別測試信號。
由於語音信號具有不同的持續時間,所以它們的長度通過動態時間規整(DTW)技術進行對齊,因此N對於所有模板都是相同的。它可以在訓練期間完成。
我的問題是:如何改變測試信號的長度?我無法使用DTW,因爲我不知道它屬於哪個類。我是否應該使用「時間延展」算法,保持音調,如果我應該這樣做,這將如何影響識別精度?
好吧,我會試試看。我想,不同信號的窗口大小的差異並不重要,因爲人類語音在大約20-50毫秒的時間間隔內保留了它的頻率特性。 – Zagavarr
與DTW相比,這將是不理想的匹配,因爲它假定樣本均勻拉伸。 –