3

我目前正在爲我的大學開展一個項目。任務是編寫要在後臺等待幾個命令(例如call 0 123 ...)的電話上運行的語音識別系統。小詞彙量的語音識別(約20字)

這是2個月的項目,所以它不一定非常準確。可接受的噪音量可能很小,單詞會被沉默的時刻分開。

我目前正在加載以RAW 16位PCM格式編碼的樣本單詞。將其分塊(大約每秒50次)並在每個塊上運行FFT以獲得頻譜。

需要解決的問題有: 1)經歷較長的錄音並將其分解成單詞。 2)找到最匹配的詞

1)我正在考慮只是檢查大塊後大塊,如果我遇到很少有更高的人類語音頻率的高度假設單詞已經開始。無論如何,我正在尋找可能有助於此的資源。

2)這一個接縫有點棘手。是否有必要使用HMM來處理這樣的系統,或者假設詞彙量非常小(20個字),可能會有更簡單的方法?

編輯: 項目的重點是自己編寫系統,所以我不能使用像Sphinx或HTK這樣的庫。

問候, 卡羅爾

+1

這:http://stackoverflow.com/questions/8467589/simple-speech-recognition-methods?rq=1可能會幫助你。 – Thealon

+0

更好http://stackoverflow.com/questions/25452001/small-size-speech-recognition-on-android-to-look-for-keywords –

回答

0

如果將來有人會有同樣的問題。尋找2個主關鍵字:

MFCC - Mel-Frequency cepstrum coefficients計算的係數系列的每個字模板

大田 - 要匹配模板捕獲字DTW的 好足夠的描述可以在維基百科

此找到方法足以在20個單詞詞典中具有大約80%的準確性,並在課堂上給出一個很好的演示。

0

要識別您可以使用Pocketsphinx在手機上的命令。在CMUSphinx網站上提供了涵蓋Android上語音識別應用程序的Tutorial

+0

嘿, 感謝您的回答,但整個項目是關於編寫系統,所以我不能使用現成的框架(至少不能用於識別)。 –