2013-05-14 16 views
4

這可能是很愚蠢的問題,但我無法在任何地方找到細節。如何使用MFCC向量來分類單個音頻文件?

所以,我有錄音(WAV文件)爲3秒。這是我的示例,它需要分類爲[class_A]或[class_B]。

通過以下對一些MFCC tutroial,我把樣本分成幀(291幀是精確的)和我已經得到從每幀的MFCC。

現在我有291個的特徵向量,每個向量的長度爲13

我的問題是;你到底如何用分類器(例如k-NN)來使用這些向量?我有291個向量代表1個樣本。我知道如何處理1個樣本的1個矢量,但如果我有291個樣本,我不知道該怎麼辦。我無法在任何地方找到解釋。

+0

您可以提供鏈接到你是如何解決的呢? – 2018-01-18 21:05:31

+0

請您發表您的解決方案 – 2018-01-18 23:53:45

回答

4

您的每一個載體將代表您的音頻文件的光譜特性,因爲它隨時間而變化的。根據幀的長度,您可能希望將其中的一些(例如按維度平均)分組以匹配您希望分類器工作的分辨率。舉個例子,想象一下可能有一個信封的特定聲音,其攻擊時間爲2ms:這可能與您想要用時間量化一樣細緻,因此您可以a)對MFCC矢量的數量進行分組和平均代表2ms;或b)以所需的時間分辨率重新計算MFCC。

如果你真的想保持好的分辨率,你可以連接291個向量,並把它看作一個單獨的向量(291×13維),這可能需要一個龐大的數據集來訓練。

+0

我生成的音頻文件的MFCC,它具有形狀(20,5211),所以這是每一個具有20個MFCC值5211個載體。我如何餵它一個神經網絡?我很困惑。 – 2018-01-25 17:25:15

+1

@kRazzyR 我沒有使用神經網絡。我使用支持向量機。我建議你看看SK-學習神經網絡教程[這裏](http://scikit-learn.org/stable/modules/neural_networks_supervised.h TML) – jimijazz 2018-01-26 19:07:23

+0

好,謝謝。我會看看它。 – 2018-01-26 19:14:00

相關問題