bluemix實時語音與HLS文本

我有一個工作應用程序，它使用Bluemix Speech to Text API爲Http Live流媒體源提供隱藏字幕。但是，從ts文件解析聲音有一些延遲。我的代碼如下：bluemix實時語音與HLS文本

videoProps.stream = WatsonSpeechToText.recognizeElement({ 
    element: myMediaElement, 
    token: videoProps.ctx.token, 
    muteSource: false, 
    autoPlay: false, 
    model:videoProps.ctx.currentModel, 
    timestamps: true, 
    profanity_filter: true, 
    inactivity_timeout: -1, 
    continuous: true 
}) 
.pipe(new WatsonSpeechToText.FormatStream()); 

videoProps.stream.on("result", function(result) { 
    //do something 
}

是否有一個更快的API使用，使我更接近實時？

感謝

來源

2016-07-13 Aaron B

您好亞倫看到這些模型和它們的特徵的文檔中的更多信息，哪種模式是您使用？英語寬帶模式？速度很大程度上取決於錄製的質量。什麼是你得到的實時因素（RTF =解碼時間/音頻時間）。哪種音頻格式？請嘗試通過我們的演示來提供您的文件。當我對它說話時，我總是比實時識別更快。 Dani –

開源實現基於Kaldi這樣CloudASR可以運行比實時更快了，你還可以調整系統的速度和精度。您將不得不雖然維護服務器雲之間進行平衡。

來源

2016-07-13 07:53:24

數據隱私也可能是一個值得關注的問題...... –

如果您在自己的雲中運行該軟件，該擔心什麼？這比將數據發送給IBM要好得多。 –

Watson語音到文本服務API提供具有不同性能特徵的不同輸入模型。根據音頻的質量，BroadbandModel比實時略快，但NarrowBand比實時略慢。你在使用哪種模式？如果您還沒有使用寬帶模式，請嘗試使用該模式，因爲假設音頻也是實時流式傳輸，那麼它應該更適合字幕應用。

您可以在http://www.ibm.com/watson/developercloud/doc/speech-to-text/input.shtml#models

來源

2016-07-14 19:18:54 WvH

bluemix實時語音與HLS文本

回答

相關問題