Windows上的Google Speech API？

我正在尋找使用語音識別來識別用戶製作的聲音並相應地播放動畫。Windows上的Google Speech API？

識別需要非常快，並且只需要一次識別聲音以便快速動畫和嘴脣同步。

我一直無法在Windows上獲得準確的詞/音素識別。我知道Google爲移動電話提供了API，併爲Google Chrome提供了一個Web API，但是我想知道是否有任何已知的方法可以利用Google的Windows應用程序中的高質量和快速語音識別功能？

哎呀。這聽起來很難，雖然我沒有完整的解決方案，但我確實有一個可以幫助你的建議。

來自firelight Technologies的FMOD API有一個非常易於使用的功能，它使用一種稱爲快速傅立葉變換的算法，這使您可以讀取聲音緩衝區，並根據所捕獲的頻率採取行動。

您可以使用它將圖形和聲音連接在一起。我一直在根據正在播放的聲音文件讓對象移動。使用麥克風輸入代替預先錄製的聲音不應該太困難。

他們的軟件可以免費使用，只要您不收費，並且超級容易設置。

就編程語音識別而言。我唯一的建議是讓自己像Audacity一樣的聲音編輯器，然後開始對着你的麥克風說話，然後試着通過研究正在顯示的波形模式來確定聲音的外觀。

FMOD的FFT模塊可以填充代表遊戲循環中該幀的波形模式的值數組。

有一個可用一個簡單的例子是使用OpenGL顯示這個波形，這就是所謂的FMOD頻率例http://nccastaff.bournemouth.ac.uk/jmacey/RobTheBloke/www/opengl_programming.html#8

你可能想看看FMOD-EX包和他們的一些其他工具。 http://www.fmod.org/download/

2014-06-27 17:58:21 MarcClintDion

回答