2014-02-27 143 views
0

我知道音頻指紋識別音頻文件,它很棒,但我真正想知道的是Google如何製作其語音識別API,他們如何獲取音頻和返回的文字。谷歌語音識別如何工作?

我寫了一個gem指紋wav音頻文件並對它們進行比較,但是如果我用指紋比較我的聲音與指紋的數據庫,那麼它可能會花費很長時間。 Google如何做到這一點?

目的:

我真正進入語音識別,我想一個地方開始編碼,但我沒有從哪裏開始的線索。 DragonVoice是語音識別軟件的另一個例子,所有這些軟件都非常快。

我想知道服務器流從獲取音頻記錄轉換成文本。

+0

對於它的價值,語音識別不是在瀏覽器中完成的。音頻被髮送到Google的服務器,進行處理,並返回文本。 – Brad

+0

谷歌實際上發佈了一些信息,他們如何做到這一點。有關語音處理的論文清單由Google員工和附屬機構編寫http://research.google.com/pubs/SpeechProcessing.html,還有像http://googleresearch.blogspot.cz/2012這樣的博客文章。 /10/large-scale-language-modeling-in.html,最後是一些視頻,如https://www.youtube.com/watch?v=g6iAOdRsDOM(涵蓋基礎知識)。 – user7610

+0

請記住,這是語音與文字**和**的建議和更正,谷歌只是喜歡你鍵入的組合。這使它非常好。 – Vassilis

回答

3

使用源,盧克:-)

同類最佳的開源語音識別軟件(恕我直言)的:CMUSphinx http://cmusphinx.sourceforge.net/

學習曲線有點陡峭,但它應該是值得的。 ..

FWIW,Stackoverflow上對標籤語音識別的描述說:語音識別意味着識別說話的人,並經常誤用以表示「語音識別」 - 識別所說的內容。

由於所報,這是:-)

玩得開心很常見的錯誤!