所以我有這個單音音頻文件,其中包含人們說話,說話暫停,然後他們再次交談。當他們在說話,而他們不說話的時候,孩子們不時在背景中哭泣,汽車休息時間尖叫,當你在外面時聽到的東西。提高語音檢測算法的準確性
我的目標是在講話時保留這些部分,並在他們不講話時剪切這些部分。沒有必要過濾背景噪音。
基本上我的最終目標是有一個切割清單這樣
Start in seconds, End in seconds
我有什麼企圖?
- 我手動創建的聲音僅由裝配在一起所有包含語音的部分的文件。(10秒)
- 我手動創建的噪聲僅由裝配在一起的所有不包含語音的部分的文件。(50秒),
- 我得到的頻率+振幅其通過應用快速傅立葉變換
- 我通過音頻文件走在每100毫秒,並採取FFT快照
- 我把一個快照的所有的值(在我的情況512)在列表中,並將其饋送到機器學習算法(numl)結合一個標籤(在第一種情況下語音=真,第二種情況下語音=假)
- 然後我使用我的主音頻文件,做基本相同,但這次使用我的機器學習模型的結果來確定是否它是講話與否,並輸出在幾秒鐘內實現這一點的時間。
我的問題是我得到了很多誤報和誤報。它似乎在沒有聲音時識別聲音,反之亦然。
原因可能是一個訓練有素的模型(我使用決策樹)還是需要採取其他措施才能獲得更好的結果?
使用PCA到主揚聲器和背景噪聲中分離應該給你更好的數據開始。 – greeness