2016-07-15 69 views
2

我想在汽車環境中通過語音分離提高語音識別的準確性。要處理的聲音是一個挑戰,因爲噪音,無線電音樂和其他演講者的聲音可能總是混在一起。使用FASST語音分離

所以我想把聲音分成兩個部分,一個是我的聲音,另一個是定義的一般噪音。爲此,我通過HTK訓練一個與揚聲器相關的GMM模塊(只是我的聲音),然後使用FASST分離這些聲音。你認爲這會起作用嗎?

回答

1

對於NMF,我會改用openblissart。另一個好主意是如果你還沒有這樣做,立體聲錄音。

您可以從切換到DNN模型而非HMM和Kaldi獲得最大的改善,遠遠超過您從任何源分離中獲得的。藉助DNN,您還可以進行多層次訓練,它的表現甚至會比噪音分離更好。您可以檢查Kaldi源中的CHIME實驗設置,以瞭解如何訓練噪聲魯棒識別器。