2015-12-18 57 views
0

如在幾本書描述的,識別的孤立的單詞的過程包括以下的:如何在識別過程中改變未識別語音信號的長度?

  1. 對於一組給定的信號(模板),確定特徵向量用於 每個模板 - 矩陣M×N,其中M是特徵(MFCC,ZCR,...)的編號 ,並且N是幀數。
  2. 用一些算法訓練模板,如ANN,HMM,GMM,SVM。
  3. 通過訓練模型識別測試信號。

由於語音信號具有不同的持續時間,所以它們的長度通過動態時間規整(DTW)技術進行對齊,因此N對於所有模板都是相同的。它可以在訓練期間完成。

我的問題是:如何改變測試信號的長度?我無法使用DTW,因爲我不知道它屬於哪個類。我是否應該使用「時間延展」算法,保持音調,如果我應該這樣做,這將如何影響識別精度?

回答

0

通過提取N幀間距較近或較遠的特徵,可以爲「時間拉伸」信號獲得一個等效的MxN特徵向量。

+0

好吧,我會試試看。我想,不同信號的窗口大小的差異並不重要,因爲人類語音在大約20-50毫秒的時間間隔內保留了它的頻率特性。 – Zagavarr

+0

與DTW相比,這將是不理想的匹配,因爲它假定樣本均勻拉伸。 –

0

您不需要更改長度以進行匹配。您從參考樣本和測試樣本中提取特徵,它們都有不同的幀數。然後,在每個參考和測試之間應用DTW,從而對齊它們。作爲DTW運行的結果,您可以獲得測試樣本與每個參考文獻之間的匹配分數。你做的是你拉伸不均勻的每個參考樣本,以配合測試樣本。由於您將每個參考文獻與單個測試進行比較,因此可以使用DTW分數進行比較。所以你選擇最好的分數作爲結果的參考。

有關DTW語音識別的詳細信息和想法,請查看presentation

如果你想更接近DTW語音識別的想法,你可以閱讀一本書Fundamentals of Speech Recognition 1st Edition by Lawrence Rabiner, Biing-Hwang Juang