實時識別來自連續麥克風流的非語音，非音樂聲音

我期待記錄與特定聲音相對應的事件，例如汽車門砰擊，或者可能是烤麪包機彈出烤麪包。實時識別來自連續麥克風流的非語音，非音樂聲音

該系統需要比「大聲探測器」更復雜;它需要能夠將特定的聲音與其他大聲的噪音區分開來。

識別不需要是零延遲，但處理器需要跟上來自始終打開的麥克風的連續輸入數據流。

This answer表明匹配濾波器將是適當的，但我對細節朦朧。由於目標聲音的變化，我不相信目標聲音樣本和麥克風流之間的音頻波形數據的簡單互相關會很有效。

我的問題也類似於this，這並沒有得到太多的關注。

2011-11-27 kostmo

你可能有更好的運氣比上http://dsp.stackexchange.com。 – mtrw

這博士論文，Non-Speech Environmental Sound Classification System for Autonomous Surveillance，通過考靈（2004），對用於音頻特徵提取不同技術的實驗結果，以及分類。他使用環境的聲音，如緊張的原因鍵和腳步聲，並能達到70％的準確度：

最好的方法是發現，要麼連續小波變換特徵提取與動態時間規整或梅爾頻率倒譜系數具有動態時間扭曲的係數。這兩種技術都可以達到70％的識別率。

如果你只限於一種聲音，也許你可能能夠獲得更高的識別率？

作者還提到，與語音識別（學習矢量量化和神經網絡）工作相當好技術不環保的聲音這麼好。

我還發現一個更近的文章在這裏：Detecting Audio Events for Semantic Video Search，通過Bugalho等。（2009），他們在電影中檢測聲音事件（如槍聲，爆炸等）。

我沒有這方面的經驗。由於你的問題激起我的興趣，我只是偶然發現了這些材料。我在這裏張貼我的發現，希望它有助於您的研究。

2011-11-27 11:41:00

鏈接已損壞。 – AJMansfield

@AJMansfield發現了文章的備用鏈接。 –

我發現一個有趣的紙張上的主題

Vehicle Sound Signature Recognition by Frequency Vector Principal Component Analysis由華東吳，梅爾西格爾，和Pradeep科斯拉（上儀器和測量在IEEE Transactions第48卷，第5，1999年10月）

它應該也適用於您的應用程序，如果不比車輛聲音更好。

當分析所述訓練數據，它...

注意到200毫秒
樣品是否傅立葉變換（FFT）對每個樣品
是否在頻率矢量Principal Component Analysis
- 計算此類別所有樣品的平均值
- Subtrac ts樣本的平均值
- 計算平均協方差矩陣的特徵向量（每個向量與其自身的外積的平均值）
- 存儲平均值和最顯着的特徵向量。

然後到聲音分類，它...

2011-11-27 12:50:03

回答