我期待記錄與特定聲音相對應的事件,例如汽車門砰擊,或者可能是烤麪包機彈出烤麪包。實時識別來自連續麥克風流的非語音,非音樂聲音
該系統需要比「大聲探測器」更復雜;它需要能夠將特定的聲音與其他大聲的噪音區分開來。
識別不需要是零延遲,但處理器需要跟上來自始終打開的麥克風的連續輸入數據流。
- 這個任務與語音識別有顯着區別,還是我可以使用語音識別庫/工具包來識別這些非語音聲音?
- 鑑於我只需要匹配一個聲音(而不是聲音庫之間的匹配),我可以做什麼特殊的優化?
This answer表明匹配濾波器將是適當的,但我對細節朦朧。由於目標聲音的變化,我不相信目標聲音樣本和麥克風流之間的音頻波形數據的簡單互相關會很有效。
我的問題也類似於this,這並沒有得到太多的關注。
你可能有更好的運氣比上http://dsp.stackexchange.com。 – mtrw