我正在爲Google Glass編寫遊戲,但不幸的是,SpeechRecognizer API在Google Glass GDK的當前版本中不可用。用於非常簡單的語音/語音識別的算法
所以我一直在考慮實現一個非常簡單的語音識別算法。 假設我只想識別:「是」和「否」。
你知道任何示例代碼或任何有用的資源來幫助我實現這個嗎?
難道我不應該放棄這個想法,並使用CMUSphinx這樣的大型框架嗎?
如何識別:上,下,右,左或從1到10的數字?
我正在爲Google Glass編寫遊戲,但不幸的是,SpeechRecognizer API在Google Glass GDK的當前版本中不可用。用於非常簡單的語音/語音識別的算法
所以我一直在考慮實現一個非常簡單的語音識別算法。 假設我只想識別:「是」和「否」。
你知道任何示例代碼或任何有用的資源來幫助我實現這個嗎?
難道我不應該放棄這個想法,並使用CMUSphinx這樣的大型框架嗎?
如何識別:上,下,右,左或從1到10的數字?
據我所知,經常使用fast Fourier transform (FFT)轉換到頻域並進行分析。還需要一些用於頻率關聯的演講詞典。
請參閱此鏈接:
CMU Sphinx有Java實現。
David Wagner有很好的文章和matlab實現。
P.S.哦,如果你用俄語說話,你爲什麼不讀this文章 - 很簡單,用java的例子。
P.P.S.老實說,我從來沒有使用過這個框架,但是如果你對語音識別只有膚淺的認識,那麼強健和容易的方法就是使用現有的完整解決方案,比如框架或者庫,否則你需要花時間去掌握必要的知識門檻。在這種情況下,您可以閱讀this文章。
看起來像PocketSphinx(CMU獅身人面像的一部分)是要走的路。 –
通常,您使用隱馬爾可夫模型(HMM)訓練語音識別。 – Regenschein