2012-09-24 40 views
4

對於語音控制應用程序,我有幾點想法。不幸的是,根據我從Siri和Google Voice Actions看到的情況,這項技術似乎還沒有完成。即使在完全安靜的環境中,準確性也非常糟糕,以至於將其輸入到手機中通常會更容易。語音控制API - 針對特定短語的高準確度

讓任務更容易的一種方法是將系統限制爲幾個命令,特別是選擇聽起來非常不同的命令,而不是將聲音傳遞給服務並將文本返回。

所以要求我已是:

  • 非常高的精度當被問及與一組有限的命令
  • 優選其在移動設備上運行的工作,但僅適用於PC庫可能是有用的太
  • 離線再次是最好的,但沒有必要
  • 無需開源 - 許可是精細

這樣的API或軟件是否存在?

回答

1

VoiceXML和SRGS可能是一個很好的搜索起點。遺憾的是,在開放源代碼領域沒有太多的東西,因爲讓這類東西「正確」將意味着巨大的發薪日。

+0

我不只是限制自己開源 – Casebash

1

使用支持語法的語音識別系統(SRGS)可以提高識別率。文法通過指定期望的單詞和短語作爲語音識別系統用來獲得匹配的規則來限制搜索空間,因此可以提高性能和識別率。

VoiceXML對於開發使用電話作爲交互模式的語音應用程序是一種很好的語言。我使用電話作爲交互模式的意思是,用戶實際撥打的電話號碼爲IVR system,它接聽電話,然後通過語音或電話鍵盤輸入,通過錄制的音頻提示和用戶輸入開始與用戶交互。 VoiceXML不適用於具有本機Android應用程序或Web應用程序等可視界面的移動應用程序。要開發使用語音的視覺應用程序,您可以使用類似Nuance's mobile tool這樣的產品,這些產品的價格可能會很高。或者像Sphinx這樣的開源軟件。

+0

我檢查了Nuance的[API](http://dragonmobile.nuancemobiledeveloper.com/public/Help/SpeechKitFrameworkReference_Android/index.html),不幸的是它不是基於語法的 – Casebash

+2

另一方面,獅身人面像,看起來更有希望。 [準確性數據](http://cmusphinx.sourceforge.net/sphinx4/#speed_and_accuracy) – Casebash

1

大多數基於雲端的語音識別API(Google,AT & T,Siri等)不允許使用自定義的SRGS語法來提高準確性。這真的很不幸。

一種可能性是將Voxeo中的兩項技術結合起來,即TropoPhono。前者是一個基於API的語音平臺,比VoiceXML平臺更容易使用,後者是用於從瀏覽器製作(並控制)語音通話的jQuery插件。 Tropo支持SRGS語法。

4

我最近參與一個項目開發移動基於語法的語音識別應用程序的平臺,具有以下特點:

所有組件都是開源的,因爲您擁有該語言的聲學模型,所以建立自己的服務器並將系統移植到您的語言不應太難。

+0

準確度如何?我已經看到了獅身人面像的數據 - 但我認爲這是實驗室,而不是真實的世界條件 – Casebash

+0

很難說。準確度取決於許多因素:語法大小/內容,聲學模型如何訓練,背景噪聲等。也許問問斯芬克斯開發人員。 – Kaarel