1

我目前正在開發語音識別項目,並試圖選擇最有意義的功能。 大部分相關論文都建議使用零交叉率,F0和MFCC功能,因此我正在使用這些功能。 我的問題是,持續時間爲00:03的訓練樣本有268個特徵。考慮到我正在做一個多類分類項目,每個類訓練包含50+個樣本,包括所有MFCC特徵可能會受到維度詛咒或「降低其他特徵的重要性」項目的影響。 所以我的問題是,我應該包括所有MFCC功能,如果不是,你可以建議一個替代方案嗎?語音識別所需的MFCC功能

回答

2

您不應該使用f0和過零點,它們太不穩定。您可以簡單地增加訓練數據並使用mcccs,它們具有良好的表示能力。但記住要將它們標準化。

+0

mfcc僅適用於語音還是可以用於任何音頻/聲音相關的任務? –

+1

對於某些任務MFCC可以,對於音樂識別等一些任務來說,沒有足夠的分辨率和其他功能。 –

2

得到各幀的MFCC係數之後,可以表示如MFCC特徵的組合:增量MFCC特徵的concent在此 link.

39尺寸被描述

 
1) First 12 MFCC 
2) 1 energy feature 
3) 12 delta MFCC feature 
4) 12 double-delta MFCC feature 
5) 1 delta energy feature 
6) 1 double delta energy feature 

MFCC功能饋入HMM Recurrent Neural Network

+0

1個能量特徵是指什麼?你是否建議使用總能量,如果是這種情況,總能量不是一個變量,也沒有三角洲。 – Ugur

+0

2點能量是指從時間樣本t1到t2的窗口中信號x的能量。 – Someone

+0

由於delta MFCC也有所不同,所以1 delta能量就是與之對應的能量。 – Someone

1

我想說的是MFCC不是必需的。您可以使用MFCC,並且您可以使用@Mahendra Thapa提及的能量,增量和delta-delta功能,但它不是「必需的」。一些研究人員使用40個CC,一些人從MFCC計算中刪除DCT,使其成爲MFSC(譜不倒譜)。一些添加額外的功能。一些使用較少。對維度詛咒的易感性取決於你的分類器,不是嗎?最近一些人甚至宣稱已經在語音識別的「聖盃」方面取得了進展,通過深度學習來訓練原始信號的使用,學習最佳特徵而不是手工製作它們。

0

MFCC被廣泛使用,效果相對更好。

+0

可否請您擴展您的答案 –