基於音頻集合的語音識別

我有一個音頻文件的大集合，其成績單以外語寫成。
我希望能夠識別用戶是否從文本中背誦正確的單詞。
我該如何開始使用CMU Sphinx來解決這個問題？我需要語言模型，聲學模型嗎？
我想請一些指導，並從哪裏開始。基於音頻集合的語音識別

2017-05-14 amitairos

我怎樣開始接近這一使用CMU獅身人面像？

你認識到音頻和比較它的轉錄。在不匹配的情況下，您可以警告您的用戶

我需要語言模型，聲學模型嗎？

是的，你既需要。您可以從您的收藏中構建它們，但仍需要引導數據。爲了在這裏得到更多的建議，值得提一下這個語言。

我想一些指導，請和從哪裏開始。

2017-05-15 08:17:06

感謝。該語言是希伯來語。你能指點我一個更具體的教程嗎？我迷失在所有的人中。你能不能請給我我需要做的步驟？ – amitairos

好吧，希伯來語尚未得到支持，您必須構建模型或使用商業模型。 –

好的。 1.是否準備好商業廣告？哪裏？ 2.難道不是因爲我只需要我的音頻和成績單中的單詞嗎？如果是這樣，我應該採取什麼具體的方法？ – amitairos

回答