2017-02-23 93 views
0

我創建了一個自定義音響模型(其中包括一組壓縮文件中的語音數據的音頻文件,以及每個音頻文件的轉錄以標籤分隔一個文本文件)並導入它。創建部署之後,我嘗試通過上傳音頻文件來測試端點,並按預期返回了文本轉錄。Microsoft Custom Speech Service逐個接受音頻文件和音頻

但是,這裏的計劃是:將Microsoft提供的OOB聲學模型與Custom語音合併。試用了WPF示例(https://github.com/Microsoft/Cognitive-Speech-STT-Windows),它返回4個語音到文本的轉錄。我們想要的是每個消息(一個音頻文件),用戶提供這4個轉錄,他會選擇哪一個是正確的。

現在我們要將記錄的音頻文件和正確的轉錄饋送到自定義語音服務。我們如何以編程方式導入聲學數據併爲其創建模型(而不是手動上傳音頻的整個zip文件以及文本名稱和轉錄的鍵值對等文本文件)? (每次編輯現有的聲學數據,而不是導入一個新的聲音數據)

或者如果我們不能一一提供(每次用戶說完),我們可以先收集音頻文件到一個zip文件然後在整個對話結束後,將文件名和副本收集到文本文件中。但問題仍然是如何以編程方式進行導入和建模。或者甚至有可能。

謝謝你的幫助!

回答

0

自定義語音服務目前不提供API以編程方式執行您所描述的內容。然而,在接下來的幾個月內會有一個計劃發佈API。

+0

自定義語音語音(cris.ai)目前僅提供一個門戶體驗,用戶可以導入其數據,創建自定義模型,部署它們並通過某個端點訪問它們。有計劃在未來通過API支持這些操作 – CRIS