我想實現以下想法。我需要我的用戶打開網頁或移動應用程序並說點什麼。用戶的語音會被記錄下來併發送到本地服務器,我希望服務器處理它並生成一些語音輸出。使用哪種語音識別系統?
我的問題是下一:
哪個語音識別API使用?在我的情況下,音頻文件將被髮送到服務器 ,之後它將被處理。
我需要識別姓名和姓氏。這是一個潛在的問題,因爲我不住在說英語的國家,並且姓名和姓氏對說英語的人來說可能是相當陌生的。我想通過在語音識別系統的「詞典」中添加所需的姓名和姓氏來實現這一點,所以我需要一個可以擴展它的詞典的詞典。
我需要一個自由的決定。
那麼,我應該在執行我的想法時使用哪種語音識別API?