小詞彙量的語音識別（約20字）

我目前正在爲我的大學開展一個項目。任務是編寫要在後臺等待幾個命令（例如call 0 123 ...）的電話上運行的語音識別系統。小詞彙量的語音識別（約20字）

這是2個月的項目，所以它不一定非常準確。可接受的噪音量可能很小，單詞會被沉默的時刻分開。

我目前正在加載以RAW 16位PCM格式編碼的樣本單詞。將其分塊（大約每秒50次）並在每個塊上運行FFT以獲得頻譜。

需要解決的問題有： 1）經歷較長的錄音並將其分解成單詞。 2）找到最匹配的詞

1）我正在考慮只是檢查大塊後大塊，如果我遇到很少有更高的人類語音頻率的高度假設單詞已經開始。無論如何，我正在尋找可能有助於此的資源。

2）這一個接縫有點棘手。是否有必要使用HMM來處理這樣的系統，或者假設詞彙量非常小（20個字），可能會有更簡單的方法？

編輯：項目的重點是自己編寫系統，所以我不能使用像Sphinx或HTK這樣的庫。

問候，卡羅爾

這：http://stackoverflow.com/questions/8467589/simple-speech-recognition-methods?rq=1可能會幫助你。 – Thealon

更好http://stackoverflow.com/questions/25452001/small-size-speech-recognition-on-android-to-look-for-keywords –

如果將來有人會有同樣的問題。尋找2個主關鍵字：

MFCC - Mel-Frequency cepstrum coefficients計算的係數系列的每個字模板

大田 - 要匹配模板捕獲字DTW的好足夠的描述可以在維基百科

此找到方法足以在20個單詞詞典中具有大約80％的準確性，並在課堂上給出一個很好的演示。

2015-07-29 16:52:02

要識別您可以使用Pocketsphinx在手機上的命令。在CMUSphinx網站上提供了涵蓋Android上語音識別應用程序的Tutorial。

2015-05-20 13:38:51

嘿，感謝您的回答，但整個項目是關於編寫系統，所以我不能使用現成的框架（至少不能用於識別）。 –

回答