我想使用sphinx4或HTK工具包來構建一個語音識別應用程序,旨在從語音中估計一個年齡。我更瞭解語音識別所涉及的ststistical模型。 我對Mel頻率倒譜系數和Gausian混合模型感興趣,因爲這兩個更適合我的問題域。我是否必須使用神經網絡並輸入來自sphinx分類器的向量的訓練數據?我不太清楚從哪裏開始使用sphinx或HTK工具包。 我是獅身人面像和語音識別的新手,我的應用程序只是一個原型。java語音識別Sphinx 4
任何人都可以請在這方面提供某種形式的指導。 親切的問候。
我想使用sphinx4或HTK工具包來構建一個語音識別應用程序,旨在從語音中估計一個年齡。我更瞭解語音識別所涉及的ststistical模型。 我對Mel頻率倒譜系數和Gausian混合模型感興趣,因爲這兩個更適合我的問題域。我是否必須使用神經網絡並輸入來自sphinx分類器的向量的訓練數據?我不太清楚從哪裏開始使用sphinx或HTK工具包。 我是獅身人面像和語音識別的新手,我的應用程序只是一個原型。java語音識別Sphinx 4
任何人都可以請在這方面提供某種形式的指導。 親切的問候。
通常情況下,首先從這樣的事情開始尋找學術界以前的相關工作。在Minematsu et al. 2002中,他們使用了高斯混合模型(GMMs)而不是Mel頻率倒譜系數來區分老的和年輕的說話者。
假設您可以同時接觸老年人和年輕人的訓練數據,您應該也可以這樣做。即使你想嘗試另一個分類器後端,比如神經網絡,從GMM開始也許會很好,因爲你知道它們應該爲你的任務工作,並且他們會給你一些東西來與任何其他分類器進行比較你想嘗試使用。
如果你只是爲了好玩或作爲一個研究項目來做這個,我會推薦使用HTK,因爲我喜歡它是如何模塊化的。然而,如果這是商業化的,那麼你應該去Sphinx,因爲它可以像許可證一樣在BSD下重新分配。
我決定不去與獅身人面像4,因爲它基於隱馬爾可夫模型,主要用於序列分析auch作爲語音識別,甚至是基於輸入序列的接口的多模式輸入。我堅持使用了一種名爲Praat的軟件,它用於語音處理和合成。如果你喜歡,還有一個「插件」,叫做「Akustyk」,用於分析元音等等。可能是那個方向對你來說很有價值,我不確定。
然後,您可以使用mathlab並使用模式識別工具箱來實現您的神經網絡,GMM或您希望追求的任何方法。
希望它有幫助。
嗨dmcer, 謝謝你的指針。這是一個研究項目,我正在試圖建立一個原型。因此,我正在看HTK,但這需要我學習C編程。這就是爲什麼我在看sphnix4是因爲它是用java編寫的。成爲語音應用程序的新手。我知道概率概念(條件概率和貝葉斯規則以及各種分佈),但我不知道如何使用HTK或獅身人面像以及它們提供的工具。你能指出我可以解釋如何使用工具的任何資源嗎? 我下載了HTK,但它讓我感到困惑不少。 – Binaryrespawn 2010-01-19 15:29:39
@Binaryrespawn - 如果你想使用獅身人面像,你看看它打包的演示代碼,http://cmusphinx.sourceforge.net/sphinx4/#demos? – dmcer 2010-01-20 00:56:57
在做impot源文件並使用ant構建它們。我試圖現在運行演示,但是,我認爲筆記本電腦上的麥克風沒有達到演示,因此當提示說話時,演示無法接收到我的演講。任何建議讓麥克風thalkin sphinx4和擴展演示。 我在帶麥克風和凸輪的Dell M6400筆記本電腦上使用Windows XP。 – Binaryrespawn 2010-01-21 02:56:20