2013-01-14 12 views

回答

2

如果你知道說話者所說的,您可以執行forced alignment生成單詞(或音素)時間對齊。工具包(如CMU Sphinx,HTKKaldi)可以執行此操作。如果不知道講話者說了什麼,則可以執行標準語音識別並使用時間信息來獲取字邊界,但識別輸出中可能存在錯誤。

+3

爲了記錄,我維護強制對齊aeneas:https://github.com/readbeyond/aeneas/ |正如Paul Dixon所說,如果你知道發音的文字,這可能是一個選擇。否則,您需要使用一個ASR系統。 –

0

沒有事先知道什麼短語已發音這個任務是相當具有挑戰性的。作爲您嘗試將VAD應用於演講並通過暫停將聲音分成單詞的方式之一。但是在發生自發言論的情況下,人們往往不會在某些詞語之間產生任何關係。所以肯定會有問題。

建議使用一些VAD庫here

相關問題