1
發送音頻時沒有給出正確的結果我偶然發現了文章Google Speech API,該文章提出了一種通過Perl從音頻文件中提取文本的機制。現在我錄製了一個音頻文件,您可以在http://vocaroo.com/i/s0lPN5d3YQJj找到。這是一段簡單的音頻,閱讀我愛你。當我使用Chrome瀏覽器中的Google語音API並說出這些字詞時,我會得到正確的結果。當我在上面提到的與我指出的音頻文件的鏈接中嘗試代碼時,它會返回奇怪的結果,如logan。我怎樣才能讓它更準確?這只是一個示例音頻,我通常在做的是使用類似ffmpeg -i input.avi -vn -ar 44100 -ac 2 -ab 192 -f mp3 output.mp3
的FFMpeg從視頻文件中提取音頻,然後是ffmpeg -i input.mp3 output.flac
。Google Speech API在文件
'-ab 196608'或'-ar 196608'? – SexyBeast 2012-08-04 19:06:26
你聽到了音頻,對吧?這聽起來相當不錯,API爲什麼不選擇呢? – SexyBeast 2012-08-04 19:07:27
你想要'-ab 196608'。 '-ar'是在44.1KHz處很好的採樣率。如果這是你發佈的FLAC文件,那麼我的猜測是谷歌正在用你的東方口音努力 – Borodin 2012-08-04 19:42:46