2012-01-18 70 views
1

如何在服務器端實現語音識別(請不要暗示HTML5's x-webkit-speech,javascript等)?該程序將以音頻文件作爲輸入並以足夠的準確度提供音頻文件的文本轉錄。我可以使用哪些選項?如何設置語音識別服務器?

我嘗試過實施Sphin4 with Voxforge model,但準確性很差(它們可能在我的配置中也存在一些問題,我仍試圖學習它)。在一個帖子我看了,當我們使用<input name="speech" id="speech" type="text" x-webkit-speech />輸入發送到外部服務器和服務器並不比識別,並將數據發送回瀏覽器。

我怎樣才能設置該服務器?任何現有的開放源代碼服務器如果能以最小的錯誤率識別英文句子,它也會很有用。

回答

1

你有一些問題: 1.如何捕獲音頻中的客戶端。 2.如何將這些音頻傳輸到服務器。 3.如何識別。 4.如何傳回識別和置信度分數。 5.你將如何處理這些識別和信心評分(你的申請)。

對於第一種情況,你可以使用谷歌的做法,有人點擊一個麥克風圖標,記錄語音一段時間。或者,iPhone Siri,VAD用於錄製音頻。

其次,它是基本的TCP/IP文件傳輸問題。也可以使用Apple的方法並使用Flac或Speex壓縮音頻文件。

第三,這是非常困難的部分。你需要更好的聲學模型,你可以從Voxforge獲得。對於連續的語音識別來說,這是特別真實的,像Siri這樣的背景。對於命令,Voxforge很好。

第四,這是另一個文件傳輸問題。

五,它是你的應用程序。

困難的部分是語音識別部分。也許其他問題是如何爲成千上萬的用戶擴展。 您可以使用Julius語音識別作爲語音客戶端來捕捉音頻。我們可以私下聊這個問題。

LFU 20 @熱郵件.COM

路易斯Uebel

ASR實驗室

www.asrlabs.com.br

+0

我正在開發的應用程序將被安裝在服務器和'解碼文本'將是這個模塊的輸出,將被應用程序的其他模塊使用...我曾嘗試配置Sphinx4與VoxForge和集線器...但到目前爲止沒有工作看到的問題http://stackoverflow.com/questions/8727389/dictation-application-using-sphinx4,please help ... – aProgrammer 2012-01-18 14:18:55

3

什麼類型的應用程序,你實現?應用程序的目的是將用戶的口頭輸入轉錄成文本還是僅僅理解簡單的命令?像Sphinx4這樣的系統使用語音轉錄的統計模型。與使用語法來限制ASR的搜索空間以獲得更好的識別的自動語音識別(ASR)系統相比,您不會像這些類型的系統那樣獲得良好的識別。使用統計模型的系統需要大量的調整和試運行才能獲得體面的認可。

Sphinx4是唯一的開源ASR我所知道的。 Nuance是市場上最大的一些商業產品/服務。一些商業產品可以選擇包括人類在識別率低時抄錄信息。

谷歌有它內部使用像谷歌語音服務的非官方API,我相信這是你引用的WebKit中使用的相同。 Google語音會將語音郵件轉錄並通過電子郵件發送給您。谷歌語音被認爲是最先進的轉錄技術,但是如果你有一個語音賬戶,你會發現轉錄的信息並不是那麼好。這裏是a link to a blog article on using the unofficial Google Speech API

+0

這將是一個聽寫應用程序,錄製用戶的語音到文本格式...我正在嘗試配置Sphinx4,但到目前爲止無法在這方面取得成功..見http://stackoverflow.com/questions/8727389/dictation-application-using-sphinx4 – aProgrammer 2012-01-18 14:20:49