Microsoft Custom Speech Service逐個接受音頻文件和音頻

我創建了一個自定義音響模型（其中包括一組壓縮文件中的語音數據的音頻文件，以及每個音頻文件的轉錄以標籤分隔一個文本文件）並導入它。創建部署之後，我嘗試通過上傳音頻文件來測試端點，並按預期返回了文本轉錄。Microsoft Custom Speech Service逐個接受音頻文件和音頻

但是，這裏的計劃是：將Microsoft提供的OOB聲學模型與Custom語音合併。試用了WPF示例（https://github.com/Microsoft/Cognitive-Speech-STT-Windows），它返回4個語音到文本的轉錄。我們想要的是每個消息（一個音頻文件），用戶提供這4個轉錄，他會選擇哪一個是正確的。

現在我們要將記錄的音頻文件和正確的轉錄饋送到自定義語音服務。我們如何以編程方式導入聲學數據併爲其創建模型（而不是手動上傳音頻的整個zip文件以及文本名稱和轉錄的鍵值對等文本文件）？（每次編輯現有的聲學數據，而不是導入一個新的聲音數據）

或者如果我們不能一一提供（每次用戶說完），我們可以先收集音頻文件到一個zip文件然後在整個對話結束後，將文件名和副本收集到文本文件中。但問題仍然是如何以編程方式進行導入和建模。或者甚至有可能。

謝謝你的幫助！

來源

2017-02-23 Judah Endymion

自定義語音服務目前不提供API以編程方式執行您所描述的內容。然而，在接下來的幾個月內會有一個計劃發佈API。

來源

2017-02-27 08:41:08 CRIS

自定義語音語音（cris.ai）目前僅提供一個門戶體驗，用戶可以導入其數據，創建自定義模型，部署它們並通過某個端點訪問它們。有計劃在未來通過API支持這些操作 – CRIS

Microsoft Custom Speech Service逐個接受音頻文件和音頻

回答

相關問題