搜索一個聲音咬的情況下，在音頻文件

我有兩個音頻文件。一個持久大致一秒鐘，含有一種很乏味「嘟嘟」聲，而另一個持續約60分鐘，填充有隨機的聲音（說話，噪聲等），以及相同的「嘟嘟」聲噪聲（NB的實例：在「嗶」聲可能與其他聲音同時發生！）。搜索一個聲音咬的情況下，在音頻文件

任何人都可以建議我一個簡單的方法來寫一個程序，通過60分鐘的音頻文件搜索，並返回一個時間戳每個實例找到的「嘟嘟」聲的噪音？我一直在四處搜尋如何做到這一點，但我很難搞清楚哪些條款可以搜索/閱讀。

如果可能，我寧願使用Python，但我也願意使用C，C++，Java或（對我來說最明顯的）Matlab。隨意指向我的教科書，概念或任何其他你認爲可能有所幫助的東西。我願意做大量的學習來弄清楚如何做到這一點。任何幫助是極大的讚賞！

編輯：標題爲清楚起見

2011-03-28 smessing

僅供參考，聲音幾乎總是大於一個字節。你可能意思是「健全的咬」，這是一個短暫的聲音。 – cHao 2011-03-29 00:20:17

我猜，你必須打開信號到頻域（FFT），然後讀取從開始到結束的聲音，和搜索的地方，你想要的頻率超過了一些門檻，然後看它至少重複一秒鐘。希望你的嘟嘟聲響得足夠響亮，這樣門檻可以設置得足夠高，聲音不會與「背景」噪音和聲音混淆。

2011-03-28 23:55:13

你正在尋找被稱爲音頻指紋識別技術。它在this answer說明。

2014-09-26 12:06:20 hendrik

首先，你必須明白的是你想要做的不是一個簡單和容易的事。它就像給計算機聽取和匹配聲音一樣。讓它更容易理解人類感知它的方式。您可以瀏覽某些開源項目以獲取幫助。查找與本主題密切相關的開源項目的AcoustID和chromaprint。

2014-09-27 20:48:23

回答