如何使用MFCC向量來分類單個音頻文件？

這可能是很愚蠢的問題，但我無法在任何地方找到細節。如何使用MFCC向量來分類單個音頻文件？

所以，我有錄音（WAV文件）爲3秒。這是我的示例，它需要分類爲[class_A]或[class_B]。

通過以下對一些MFCC tutroial，我把樣本分成幀（291幀是精確的）和我已經得到從每幀的MFCC。

現在我有291個的特徵向量，每個向量的長度爲13

我的問題是;你到底如何用分類器（例如k-NN）來使用這些向量？我有291個向量代表1個樣本。我知道如何處理1個樣本的1個矢量，但如果我有291個樣本，我不知道該怎麼辦。我無法在任何地方找到解釋。

來源

2013-05-14 nnyjoh

您可以提供鏈接到你是如何解決的呢？ – 2018-01-18 21:05:31

請您發表您的解決方案 – 2018-01-18 23:53:45

您的每一個載體將代表您的音頻文件的光譜特性，因爲它隨時間而變化的。根據幀的長度，您可能希望將其中的一些（例如按維度平均）分組以匹配您希望分類器工作的分辨率。舉個例子，想象一下可能有一個信封的特定聲音，其攻擊時間爲2ms：這可能與您想要用時間量化一樣細緻，因此您可以a）對MFCC矢量的數量進行分組和平均代表2ms;或b）以所需的時間分辨率重新計算MFCC。

如果你真的想保持好的分辨率，你可以連接291個向量，並把它看作一個單獨的向量（291×13維），這可能需要一個龐大的數據集來訓練。

來源

2015-10-08 14:32:55 jimijazz

我生成的音頻文件的MFCC，它具有形狀（20,5211），所以這是每一個具有20個MFCC值5211個載體。我如何餵它一個神經網絡？我很困惑。 – 2018-01-25 17:25:15

@kRazzyR 我沒有使用神經網絡。我使用支持向量機。我建議你看看SK-學習神經網絡教程[這裏]（http://scikit-learn.org/stable/modules/neural_networks_supervised.h TML） – jimijazz 2018-01-26 19:07:23

好，謝謝。我會看看它。 – 2018-01-26 19:14:00

如何使用MFCC向量來分類單個音頻文件？

回答

相關問題