2016-07-01 183 views
1

鑑於22 mins (1320 secs)一個音頻文件,通過Librosa data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)Librosa:MFCC特徵計算

data.shape提取MFCC特徵 (20,56829) 它返回的20個MFCC特徵numpy的陣列56829幀。

我的問題是如何計算56829.有沒有任何計算來實現這個框架?和每個幀的窗口大小是什麼?

回答

2

可以指定跳距

mfcc = librosa.feature.mfcc(y=y, sr=sr, hop_length=hop_length, n_mfcc=13) 

librosa使用中心幀,所以第k個框架是圍繞樣本k * hop_length中心

我覺得默認的躍值是512,與您的數據(1320 * 22050)/ 56829 = 512,16