我使用Kaldi的「egs/tidigits」代碼,使用23個採樣率,20kHz採樣率,25ms窗口和10ms偏移量生成「七個」話語的頻譜圖。頻譜似乎是通過MATLAB於imagesc功能如下顯現:使用Librosa生成的頻譜圖與Kaldi看起來不一致?
我用Librosa作爲替代Kaldi試驗。我使用與上面相同的bin數,採樣率和窗口長度/移位來設置我的代碼。
time_series, sample_rate = librosa.core.load("7a.wav",sr=20000)
spectrogram = librosa.feature.melspectrogram(time_series, sr=20000, n_mels=23, n_fft=500, hop_length=200)
log_S = librosa.core.logamplitude(spectrogram)
np.savetxt("7a.txt", log_S.T)
然而,當我想象的一樣WAV的產生Librosa譜圖文件看起來不同:
是否有人可以幫助我瞭解爲什麼這些看起來如此不同?在我嘗試過的其他WAV文件中,我注意到,使用上面的Librosa腳本,我的摩擦音(如上例中的/ s /在「seven」中)被截斷,這極大地影響了我的數字分類準確性。謝謝!
這個問題屬於http://dsp.stackexchange.com –