2011-08-11 50 views
4

我最近正在使用CMU的sphinx4進行轉錄並最終強制對齊,即將音頻與其轉錄對齊。使用CMU的sphinx4轉錄非數字數據

我發現一個名爲AutoCap的項目,基本上做了我想開發的項目。所以,我安裝了它,但沒有奏效。我嘗試調整它,但我得到的是不正確的時間戳。

所以,我想到了使用sphinx4,並讓它自己去。我使用Sphinx的Transcriber.jar文件成功轉錄了一個wav文件。 但我無法使用非數字數據的音頻。 readme頁面狀態 '要轉錄非數字數據的人應該修改config.xml文件以使用正確的語法,語言模型和語言專家來這樣做'

所以,任何人都可以給我提供一些幫助在任一:

  • AutoCap
  • 使用Sphinx4轉錄非數字數據
  • 強制排列

感謝。

+0

你有沒有得到這個項目的成功?將欣賞任何輸入。 –

回答

0

我目前正在就同一問題,即在這個項目上的任何問題轉錄非數字數據。我簡要介紹了sphinx 4程序員指南文檔,並按照建議使用了語言模型,聲學模型和JSGF語法。但是獲得的答覆不符合標準。我認爲僅僅調整config.xml中的參數或更改是不夠的。我認爲我們需要一個自制算法來配合獅身人面像4,它可以執行更好的語音識別。從我身邊..我用lextreeliguist,JSGFGrammar和trigram語言模型。但反應並不好。也許是因爲音頻輸入不完全是美國英語。將工作更多..並讓你知道我的結果