8

我期待記錄與特定聲音相對應的事件,例如汽車門砰擊,或者可能是烤麪包機彈出烤麪包。實時識別來自連續麥克風流的非語音,非音樂聲音

該系統需要比「大聲探測器」更復雜;它需要能夠將特定的聲音與其他大聲的噪音區分開來。

識別不需要是零延遲,但處理器需要跟上來自始終打開的麥克風的連續輸入數據流。

  • 這個任務與語音識別有顯着區別,還是我可以使用語音識別庫/工具包來識別這些非語音聲音?
  • 鑑於我只需要匹配一個聲音(而不是聲音庫之間的匹配),我可以做什麼特殊的優化?

This answer表明匹配濾波器將是適當的,但我對細節朦朧。由於目標聲音的變化,我不相信目標聲音樣本和麥克風流之間的音頻波形數據的簡單互相關會很有效。

我的問題也類似於this,這並沒有得到太多的關注。

+0

你可能有更好的運氣比上http://dsp.stackexchange.com。 – mtrw

回答

3

這博士論文,Non-Speech Environmental Sound Classification System for Autonomous Surveillance,通過考靈(2004),對用於音頻特徵提取不同技術的實驗結果,以及分類。他使用環境的聲音,如緊張的原因鍵和腳步聲,並能達到70%的準確度:

最好的方法是發現,要麼連續小波變換 特徵提取與動態時間規整或梅爾頻率倒譜系數 具有動態時間扭曲的係數。這兩種技術 都可以達到70%的識別率。

如果你只限於一種聲音,也許你可能能夠獲得更高的識別率?

作者還提到,與語音識別(學習矢量量化和神經網絡)工作相當好技術不環保的聲音這麼好。

我還發現一個更近的文章在這裏:Detecting Audio Events for Semantic Video Search,通過Bugalho等。 (2009),他們在電影中檢測聲音事件(如槍聲,爆炸等)。

我沒有這方面的經驗。由於你的問題激起我的興趣,我只是偶然發現了這些材料。我在這裏張貼我的發現,希望它有助於您的研究。

+0

鏈接已損壞。 – AJMansfield

+0

@AJMansfield發現了文章的備用鏈接。 –

3

我發現一個有趣的紙張上的主題

它應該也適用於您的應用程序,如果不比車輛聲音更好。

當分析所述訓練數據,它...

  1. 注意到200毫秒
  2. 樣品是否傅立葉變換(FFT)對每個樣品
  3. 是否在頻率矢量Principal Component Analysis

    • 計算此類別所有樣品的平均值
    • Subtrac ts樣本的平均值
    • 計算平均協方差矩陣的特徵向量(每個向量與其自身的外積的平均值)
    • 存儲平均值和最顯着的特徵向量。

然後到聲音分類,它...

  1. 注意到200毫秒(S)的樣品。
  2. 對每個樣品進行傅立葉變換。
  3. 從頻率矢量(F)中減去類別(C)的平均值。
  4. 將頻率矢量與C的每個特徵向量相乘,給出每個的特徵向量。
  5. 從F中減去每個數字的乘積和相應的特徵向量。
  6. 獲取結果向量的長度。
  7. 如果該值低於某一常數,S是公認的屬於C類。