2013-06-05 48 views
-3

我想要具有訓練好的平臺即語音模塊的自動語音識別器。 對於例如: - 我有兩個詞非常相似,所以系統必須聽到compplete詞和任何dilax並驗證它並給出輸出。具有預訓練數據集的自動語音識別器

如何做到這一點。

我已經搜索過,但我完全空白在這一點上。

回答

0

您想使用哪種技術?這裏有不同的框架,例如.net項目的Dragonfly框架(https://code.google.com/p/dragonfly)或System.Speech.Recognition命名空間。對於移動設備,您可以仔細查看Google提供的語音識別API。

+0

我想它在移動設備,我已經在Adnroid內實現語音識別,但現在我想定義自己的庫+我要像人發音不同的方式的話,所以我想reconize這一點,使輸出 –

+0

我有PocketSpinx,但我不知道android ndk正在使用和所有..!1 –

0

從這個角度來看,使用Android語音識別API進行微調是不可能的。 你可能需要從頭開始做這件事..

如果你想繼續使用谷歌語音識別API,那麼你需要做後處理...這稱爲NLU(自然語言理解)或NLP(自然語言理解)自然語言處理)。

簡單的概念是什麼STT(語音到文本)結果來自谷歌API,你需要將它們分組成一個最終的輸出。你有什麼不同的口音或語調成爲一個。或者當這個過程需要一些內容來理解並採取一些行動,比如首爾的天氣時,這個過程是否有價值?

回到你的問題,微調區分相似發音詞需要有AM(聲學模型)和LM(語言模型)訓練出來的各種詞彙相應地設置。因此,您需要從零開始訓練模型或使用具有聲學模型適應的現有模型也可以。

與開源的良好開端是HTK或獅身人面像。如果你有購買預算,那麼T's watson是迄今爲止語音識別領域的最佳工具。

0

我認爲你應該採取一種不同的方法,比試圖讓獅身人面像工作更簡單。

使用像soundEx這樣的語音匹配算法來查找用戶是否更傾向於說出一個單詞或其他單詞。我會修改soundEx算法,以便更容易匹配字符串。如果你的話足夠不同,它應該做得很好。

Here is some code to do it