我正在探索SpeechRecognitionEngine
的功能,我的最終目標是輸入WAV文件和該WAV文件的轉錄,並輸出每個單詞開始(理想情況下,結束)的WAV文件中的位置。如何確定SpeechRecognitionEngine的識別單詞的位置?
我能得到發動機成功地承認這句話,但我不知道如何字的時候開始,而不是當識別推測或認可等
如果你檢索音頻位置好奇這是什麼意思,它是在自動化lipsync動畫工作流程。
感謝您的時間。
我正在探索SpeechRecognitionEngine
的功能,我的最終目標是輸入WAV文件和該WAV文件的轉錄,並輸出每個單詞開始(理想情況下,結束)的WAV文件中的位置。如何確定SpeechRecognitionEngine的識別單詞的位置?
我能得到發動機成功地承認這句話,但我不知道如何字的時候開始,而不是當識別推測或認可等
如果你檢索音頻位置好奇這是什麼意思,它是在自動化lipsync動畫工作流程。
感謝您的時間。
正確的音頻到文本對齊是一項需要與語音識別不同的特定算法的任務。您可以使用ASR引擎模擬一些對齊功能,但它會工作良好。
有關的比對算法的實現,你可以檢查CMUSphinx語音識別工具包:
http://cmusphinx.sourceforge.net/?s=long+audio+alignment
http://www.bluevincent.com/2011/02/speech-to-text-using-java.html
或者你可以嘗試像Nexiwave
http://nexiwave.com/index.php/applications/transcription-timestamping一個商業公司服務
謝謝,我會看看獅身人面像。 – Rotem
你能請指教你是如何管理的e讓引擎識別這個短語?我正在嘗試做這樣的事情,而且幾乎卡住了。在此先感謝您的幫助:) – user990635
我使用了一個由字符串數組創建的'GrammarBuilder',其中包含我想要識別的字以創建一個'Grammar'對象,並使用'LoadGrammar'方法將其加載到'SpeechRecognitionEngine'中。 – Rotem