語音識別所需的MFCC功能

我目前正在開發語音識別項目，並試圖選擇最有意義的功能。大部分相關論文都建議使用零交叉率，F0和MFCC功能，因此我正在使用這些功能。我的問題是，持續時間爲00:03的訓練樣本有268個特徵。考慮到我正在做一個多類分類項目，每個類訓練包含50+個樣本，包括所有MFCC特徵可能會受到維度詛咒或「降低其他特徵的重要性」項目的影響。所以我的問題是，我應該包括所有MFCC功能，如果不是，你可以建議一個替代方案嗎？語音識別所需的MFCC功能

來源

2016-08-08 Ugur

您不應該使用f0和過零點，它們太不穩定。您可以簡單地增加訓練數據並使用mcccs，它們具有良好的表示能力。但記住要將它們標準化。

來源

2016-08-10 15:46:05

mfcc僅適用於語音還是可以用於任何音頻/聲音相關的任務？ –

對於某些任務MFCC可以，對於音樂識別等一些任務來說，沒有足夠的分辨率和其他功能。 –

得到各幀的MFCC係數之後，可以表示如MFCC特徵的組合：增量MFCC特徵的concent在此 link.

39尺寸被描述

 
1) First 12 MFCC 
2) 1 energy feature 
3) 12 delta MFCC feature 
4) 12 double-delta MFCC feature 
5) 1 delta energy feature 
6) 1 double delta energy feature

MFCC功能饋入HMM或 Recurrent Neural Network。

來源

2016-08-11 16:36:32 Someone

1個能量特徵是指什麼？你是否建議使用總能量，如果是這種情況，總能量不是一個變量，也沒有三角洲。 – Ugur

2點能量是指從時間樣本t1到t2的窗口中信號x的能量。 – Someone

由於delta MFCC也有所不同，所以1 delta能量就是與之對應的能量。 – Someone

我想說的是MFCC不是必需的。您可以使用MFCC，並且您可以使用@Mahendra Thapa提及的能量，增量和delta-delta功能，但它不是「必需的」。一些研究人員使用40個CC，一些人從MFCC計算中刪除DCT，使其成爲MFSC（譜不倒譜）。一些添加額外的功能。一些使用較少。對維度詛咒的易感性取決於你的分類器，不是嗎？最近一些人甚至宣稱已經在語音識別的「聖盃」方面取得了進展，通過深度學習來訓練原始信號的使用，學習最佳特徵而不是手工製作它們。

來源

2016-11-08 03:50:26

MFCC被廣泛使用，效果相對更好。

來源

2017-02-21 11:18:40 yangh

可否請您擴展您的答案 –

語音識別所需的MFCC功能

回答

相關問題