Google Speech API在文件

發送音頻時沒有給出正確的結果我偶然發現了文章Google Speech API，該文章提出了一種通過Perl從音頻文件中提取文本的機制。現在我錄製了一個音頻文件，您可以在http://vocaroo.com/i/s0lPN5d3YQJj找到。這是一段簡單的音頻，閱讀我愛你。當我使用Chrome瀏覽器中的Google語音API並說出這些字詞時，我會得到正確的結果。當我在上面提到的與我指出的音頻文件的鏈接中嘗試代碼時，它會返回奇怪的結果，如logan。我怎樣才能讓它更準確？這只是一個示例音頻，我通常在做的是使用類似ffmpeg -i input.avi -vn -ar 44100 -ac 2 -ab 192 -f mp3 output.mp3的FFMpeg從視頻文件中提取音頻，然後是ffmpeg -i input.mp3 output.flac。Google Speech API在文件

來源

2012-08-04 SexyBeast

您是否嘗試過播放您創建的音頻文件？

您正在設置192比特/秒的音頻比特率，這個比例非常低。

對於192Kbps，您需要-ab 196608。

來源

2012-08-04 18:16:35 Borodin

'-ab 196608'或'-ar 196608'？ – SexyBeast 2012-08-04 19:06:26

你聽到了音頻，對吧？這聽起來相當不錯，API爲什麼不選擇呢？ – SexyBeast 2012-08-04 19:07:27

你想要'-ab 196608'。 '-ar'是在44.1KHz處很好的採樣率。如果這是你發佈的FLAC文件，那麼我的猜測是谷歌正在用你的東方口音努力 – Borodin 2012-08-04 19:42:46

Google Speech API在文件

回答

相關問題