Q

使用CMU的sphinx4轉錄非數字數據

2011-08-11 50 views 4 likes

4

我最近正在使用CMU的sphinx4進行轉錄並最終強制對齊，即將音頻與其轉錄對齊。使用CMU的sphinx4轉錄非數字數據

我發現一個名爲AutoCap的項目，基本上做了我想開發的項目。所以，我安裝了它，但沒有奏效。我嘗試調整它，但我得到的是不正確的時間戳。

所以，我想到了使用sphinx4，並讓它自己去。我使用Sphinx的Transcriber.jar文件成功轉錄了一個wav文件。但我無法使用非數字數據的音頻。 readme頁面狀態 '要轉錄非數字數據的人應該修改config.xml文件以使用正確的語法，語言模型和語言專家來這樣做'。

所以，任何人都可以給我提供一些幫助在任一：

AutoCap
使用Sphinx4轉錄非數字數據
強制排列

感謝。

2011-08-11 Wilshere

+0

你有沒有得到這個項目的成功？將欣賞任何輸入。 –

A

回答

2

有一個專門用於語音對齊的特定項目。這不是一項簡單的任務。該開發進入一個單獨的sphinx4分支。您可以在這裏找到一些細節

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

如果有，歡迎您詢問有關sphinx4論壇

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

2011-08-13 14:37:48

0

我目前正在就同一問題，即在這個項目上的任何問題轉錄非數字數據。我簡要介紹了sphinx 4程序員指南文檔，並按照建議使用了語言模型，聲學模型和JSGF語法。但是獲得的答覆不符合標準。我認爲僅僅調整config.xml中的參數或更改是不夠的。我認爲我們需要一個自制算法來配合獅身人面像4，它可以執行更好的語音識別。從我身邊..我用lextreeliguist，JSGFGrammar和trigram語言模型。但反應並不好。也許是因爲音頻輸入不完全是美國英語。將工作更多..並讓你知道我的結果

2011-09-03 09:16:38

相關問題