1
假設我有音頻和該音頻的明文成績單,如何使用語音識別以編程方式從兩者生成字幕?通過語音識別從預先存在的成績單生成字幕
這與編輯視頻時YouTube在其字幕/字幕頁面上提供的內容非常相似。
有什麼API可以做到這一點?它有哪些挑戰?
我最流利的Java/C#,但這是語言不可知論的。
假設我有音頻和該音頻的明文成績單,如何使用語音識別以編程方式從兩者生成字幕?通過語音識別從預先存在的成績單生成字幕
這與編輯視頻時YouTube在其字幕/字幕頁面上提供的內容非常相似。
有什麼API可以做到這一點?它有哪些挑戰?
我最流利的Java/C#,但這是語言不可知論的。
這被稱爲時間戳或對齊。 CMUSphinx項目項目有一個特定的工具。你可以從subversion中檢查出來。
http://cmusphinx.svn.sourceforge.net/viewvc/cmusphinx/branches/long-audio-aligner/
有關使用的一些信息,請參閱