2010-11-10 294 views
11

我需要自動轉錄一些短MP3作爲我正在研究的概念驗證的一部分。我目前正在研究雲解決方案或Web API服務,將MP3作爲簡單的HTTP請求發送並接收轉錄。語音識別API

我發現的唯一免費/開源解決方案here,但演示似乎不起作用(至少不是我需要轉錄的文件)。我發現了呼叫中心的一些企業解決方案,但到目前爲止,我只能將其整合到一個項目中。

是否有任何基於Web的語音識別服務?一個能夠濾除小噪聲的應用將是一個優點。

+0

另請參閱此問題:http://stackoverflow.com/questions/3113864/server-side-voice-recognition – 2010-11-11 01:36:58

回答

1

This可能是一個很好的匹配。此外,他們的techcrunch檔案(See this)列出了競爭對手:SimulScribe,SpinVox,Vlingo,Nuance,Microsoft,Google 其中一些鏈接可能會有幫助。

Vlingo,Bing和Google在雲端有識別器,但我認爲他們不會公開編程。我相信只有他們的授權客戶才能訪問他們。

對於概念證明(和低容量),您是否考慮過使用Windows 7中的桌面語音引擎? What is the difference between System.Speech.Recognition and Microsoft.Speech.Recognition?可能會有幫助。 MS桌面識別器帶有聽寫語法,聽起來這就是你需要的。

+0

Yapme和我發佈後發現的一些其他服務,迎合大客戶。我通過電子郵件發送了郵件(這是獲取任何API信息,定價或訪問的唯一方式),但沒有收到回覆。列出的競爭對手提供呼叫中心解決方案,就像我在文章中提到的那樣我沒有看過微軟的語音引擎,因爲我的項目取決於我能夠編寫腳本,並且我在Linux服務器上使用PHP/Python工作。我可能會使用它做一些基本的測試,但我需要一個不同的解決方案。 – MrGlass 2010-11-10 21:10:28

+0

-1目前看來yapme.com已經停產。 – 2011-12-19 21:47:03

+2

實際上,他們正在停止他們的語音郵件轉錄服務,但不清楚他們的雲識別API發生了什麼。他們似乎已被亞馬遜購買,所以人們猜測亞馬遜可能會將其重新服務添加到亞馬遜雲服務 - http://www.theatlantic.com/technology/archive/2011/11/i-see-your-siri - 提高你一個亞馬遜安靜地捕捉到語音識別啓動/ 248165 /(你意識到我的帖子你說「-1」約一年多......) – 2011-12-19 23:16:14

1

你也可以試試Windows 7的語音識別引擎來產生字幕。 Here是這個工具。

+0

該鏈接與語音識別有什麼關係? – matteo 2014-08-23 01:49:39

+0

該開源工具使用Windows的語音識別引擎來分析.wav文件,然後從中提取字幕文件。 – VahidN 2014-08-23 05:05:07

+0

有趣的是,功能列表甚至沒有提到這樣一個強大的功能。 – matteo 2014-08-23 10:14:07

5

這裏是an unofficial method訪問Google ASR功能。我剛剛在昨天進行了測試,它仍然有效 - 您可以獲得JSON樣式的ASR輸出,其中包含來自以16KHz採樣的FLC音頻的單詞和相關信心分數。

+0

這是一個非常酷的發現。有沒有關於費率限制的任何信息? – MrGlass 2013-04-24 14:08:16

+0

請將您的音頻文件轉換爲16K Hz FLAC。由於這不是谷歌的官方解決方案,因此有許多未知數:) – Leo5188 2013-05-16 16:46:18

+3

已驗證,此方法現在不再適用。雖然,Google發佈了V2版本,但需要一個API密鑰,並且配額很低。一個實現可以在這裏找到:https://github.com/gillesdemey/google-speech-v2 – 2015-03-06 03:25:19