我想添加時間戳來預訂句子,以適合相關的有聲讀物。 理想地用各種語言。在audibook中爲字幕創建時間戳
下面是一個例子:
傲慢與偏見
text from gutenberg project
audio from Librivox
我的想法是找到一個語音識別工具,使上句時間戳(步驟1),然後映射使用levenshtein距離對原始文本進行混亂的轉錄(步驟2)。
網站https://speechlogger.appspot.com/提供了第1步的解決方案,但它的字符輸出受到限制。我可以在理論上使用網絡自動化來完成工作,每隔一分鐘左右開始一次新的錄音,但它確實很髒。
我在R中編寫了第2步,並在我從speechlogger獲得的樣本上對其進行了測試,它的工作原理還不錯,但如果程序知道文本,就像閱讀培訓語音識別軟件時那樣,這可能會大大改善。我不是通過首先抄錄我的所有信息。
所以我的問題是,我有什麼替代方法可以給音頻文件加上時間戳,並且有沒有辦法讓我的過程變得更聰明,讓識別引擎知道它應該識別的內容?
Moody Mudskipper,我想知道你是否可以提供給我一個Android應用程序,請看[這篇文章](http://cs.stackexchange.com/q/52769/45942)看看我在找什麼。有什麼建議麼?非常感謝。 –
您試圖創建的是我稱之爲「音頻電子書」的內容,其中包含文本和音頻,同步。看一下https://www.readbeyond.it/,在那裏你還可以找到aeneas,這種強制對齊方式適用於這種應用,使用30多種語言。 –
這看起來很神奇阿爾貝託,非常感謝 –