2014-06-27 33 views
0

我正在尋找使用語音識別來識別用戶製作的聲音並相應地播放動畫。Windows上的Google Speech API?

識別需要非常快,並且只需要一次識別聲音以便快速動畫和嘴脣同步。

我一直無法在Windows上獲得準確的詞/音素識別。我知道Google爲移動電話提供了API,併爲Google Chrome提供了一個Web API,但是我想知道是否有任何已知的方法可以利用Google的Windows應用程序中的高質量和快速語音識別功能?

回答

0

哎呀。這聽起來很難,雖然我沒有完整的解決方案,但我確實有一個可以幫助你的建議。

來自firelight Technologies的FMOD API有一個非常易於使用的功能,它使用一種稱爲快速傅立葉變換的算法,這使您可以讀取聲音緩衝區,並根據所捕獲的頻率採取行動。

您可以使用它將圖形和聲音連接在一起。我一直在根據正在播放的聲音文件讓對象移動。使用麥克風輸入代替預先錄製的聲音不應該太困難。

他們的軟件可以免費使用,只要您不收費,並且超級容易設置。

就編程語音識別而言。我唯一的建議是讓自己像Audacity一樣的聲音編輯器,然後開始對着你的麥克風說話,然後試着通過研究正在顯示的波形模式來確定聲音的外觀。

FMOD的FFT模塊可以填充代表遊戲循環中該幀的波形模式的值數組。

有一個可用一個簡單的例子是使用OpenGL顯示這個波形,這就是所謂的FMOD頻率例http://nccastaff.bournemouth.ac.uk/jmacey/RobTheBloke/www/opengl_programming.html#8

你可能想看看FMOD-EX包和他們的一些其他工具。 http://www.fmod.org/download/

相關問題