從您的描述,它不是完全清楚你想要做什麼。 什麼是「特定」的聲音?它有高背景噪音嗎? 什麼是特定的可識別特徵(例如音調,吸入性,音色...)? 你想對比哪些其他「聲音」? 你只是想匹配一個任意的聲譜與「模板聲音」? 你的聲音是打擊樂,旋律,演講,......?它是長,短...? 您希望最佳辨別度的頻率範圍是多少?這些功能是否隨時間變化?
沒有適用於一切的「通用」解決方案。語音識別本身相當複雜,並且不適用於抽象聲音,其可識別頻率不在例如MEL樂隊。
所以在最後,你離開了太多懸而未決的問題得到有用的答案。 唯一的建議基礎上,一些信息,我可以做如下:
For the template sound:
1) Extract spectral peak positions from the power spectrum
2) Measure the standard deviation around the peaks and construct a gaussian from it
3) save the gaussians for later classification
For unkown sounds:
1) Extract spectral peak positions
2) Project those points onto the saved gaussians which leaves you with z-scores of the peak positions
3) With the computed z-scores you should be able to classify your template sound
注:這是根據他們最強大的頻率,判別聲音非常粗略的方法。使用gaussians可以在最強大的頻率上稍稍改變空間。
您是否找到解決方案?我正在嘗試做類似的事情 - 在兩臺設備之間傳輸數據,使用音頻來表示數據,所以我只需要識別由已經存在於兩臺設備上的文件生成的特定聲音...... – 2017-01-24 11:37:24