我目前正在爲我的大學開展一個項目。任務是編寫要在後臺等待幾個命令(例如call 0 123 ...)的電話上運行的語音識別系統。小詞彙量的語音識別(約20字)
這是2個月的項目,所以它不一定非常準確。可接受的噪音量可能很小,單詞會被沉默的時刻分開。
我目前正在加載以RAW 16位PCM格式編碼的樣本單詞。將其分塊(大約每秒50次)並在每個塊上運行FFT以獲得頻譜。
需要解決的問題有: 1)經歷較長的錄音並將其分解成單詞。 2)找到最匹配的詞
1)我正在考慮只是檢查大塊後大塊,如果我遇到很少有更高的人類語音頻率的高度假設單詞已經開始。無論如何,我正在尋找可能有助於此的資源。
2)這一個接縫有點棘手。是否有必要使用HMM來處理這樣的系統,或者假設詞彙量非常小(20個字),可能會有更簡單的方法?
編輯: 項目的重點是自己編寫系統,所以我不能使用像Sphinx或HTK這樣的庫。
問候, 卡羅爾
這:http://stackoverflow.com/questions/8467589/simple-speech-recognition-methods?rq=1可能會幫助你。 – Thealon
更好http://stackoverflow.com/questions/25452001/small-size-speech-recognition-on-android-to-look-for-keywords –