我試圖比較基於麥克風錄音的聲音片段。簡單地說,我從揚聲器錄製時播放MP3文件,然後嘗試匹配這兩個文件。我有適用的算法,但是我看到我想要理清的細微差別以獲得更好的準確性。從MP3到麥克風的頻率差異
麥克風似乎傾向於某些頻率(增加幅度),並且在其他方面稍微偏離(麥克風上的峯值更寬)。
我想知道造成這種差異的原因是什麼,以及如何彌補它。
背景:
由於我在做比較的速度問題,我選擇了某些特定的頻率。問題是,這些(取決於我選擇的數量)很高的比例在MP3和麥克風之間不匹配。
我試圖比較基於麥克風錄音的聲音片段。簡單地說,我從揚聲器錄製時播放MP3文件,然後嘗試匹配這兩個文件。我有適用的算法,但是我看到我想要理清的細微差別以獲得更好的準確性。從MP3到麥克風的頻率差異
麥克風似乎傾向於某些頻率(增加幅度),並且在其他方面稍微偏離(麥克風上的峯值更寬)。
我想知道造成這種差異的原因是什麼,以及如何彌補它。
背景:
由於我在做比較的速度問題,我選擇了某些特定的頻率。問題是,這些(取決於我選擇的數量)很高的比例在MP3和麥克風之間不匹配。
它被稱爲麥克風的響應特性。不幸的是,如果不購買不同的,大概價格更高的話筒,你就無法輕易繞過它。
如果可以測量通過某種方法實際麥克風的頻率響應(其通常需要具有一些標準具的聲學系統和anechoic chamber),則可以通過施加調諧到精確地逆特性的均衡器,如所討論的here補償。但實際上,正如Kilian所說,獲得更精確的麥克風要簡單得多。我推薦使用condenser或靜電。
麥克風事先並不知道。儘管如此,我可以將其限制爲一系列麥克風。我會玩一會兒白眼,然後計算每個頻率的平均值並將相反的值應用於輸入?這可以處理頻率偏好,但不是「寬峯」 - 對嗎? –
是的,這是一個合理的方法(儘管我會將持續時間增加到十幾秒)。這種方法的一個可能的缺點是,您將實際測量麥克風和揚聲器響應的結果,儘管它實際上可以成爲您的優勢。 – vines
它不可能例如扭曲MP3文件實現相似性?模糊?銳化?漢恩/漢明窗口? FFT後降低分辨率一個小的因素? –
@Kilian Foth:爲什麼如果我們不介意相位失真,就有可能進行補償。在泰德描述的情況下,相位不一致本身是不可避免的。 – vines
當然*可能*創建一個扭曲濾波器,抵消特定麥克風的特性失真。 (如果沒有別的,可以使用機器學習......)我只是看不到比使用更好的麥克風更簡單。更便宜,也許。我想這已經進入hardware.stackoverflow.com? –