0
我知道音頻指紋識別音頻文件,它很棒,但我真正想知道的是Google如何製作其語音識別API,他們如何獲取音頻和返回的文字。谷歌語音識別如何工作?
我寫了一個gem指紋wav音頻文件並對它們進行比較,但是如果我用指紋比較我的聲音與指紋的數據庫,那麼它可能會花費很長時間。 Google如何做到這一點?
目的:
我真正進入語音識別,我想一個地方開始編碼,但我沒有從哪裏開始的線索。 DragonVoice是語音識別軟件的另一個例子,所有這些軟件都非常快。
我想知道服務器流從獲取音頻記錄轉換成文本。
對於它的價值,語音識別不是在瀏覽器中完成的。音頻被髮送到Google的服務器,進行處理,並返回文本。 – Brad
谷歌實際上發佈了一些信息,他們如何做到這一點。有關語音處理的論文清單由Google員工和附屬機構編寫http://research.google.com/pubs/SpeechProcessing.html,還有像http://googleresearch.blogspot.cz/2012這樣的博客文章。 /10/large-scale-language-modeling-in.html,最後是一些視頻,如https://www.youtube.com/watch?v=g6iAOdRsDOM(涵蓋基礎知識)。 – user7610
請記住,這是語音與文字**和**的建議和更正,谷歌只是喜歡你鍵入的組合。這使它非常好。 – Vassilis