2016-07-13 52 views
0

我有一個工作應用程序,它使用Bluemix Speech to Text API爲Http Live流媒體源提供隱藏字幕。但是,從ts文件解析聲音有一些延遲。我的代碼如下:bluemix實時語音與HLS文本

videoProps.stream = WatsonSpeechToText.recognizeElement({ 
    element: myMediaElement, 
    token: videoProps.ctx.token, 
    muteSource: false, 
    autoPlay: false, 
    model:videoProps.ctx.currentModel, 
    timestamps: true, 
    profanity_filter: true, 
    inactivity_timeout: -1, 
    continuous: true 
}) 
.pipe(new WatsonSpeechToText.FormatStream()); 

videoProps.stream.on("result", function(result) { 
    //do something 
} 

是否有一個更快的API使用,使我更接近實時?

感謝

+0

您好亞倫看到這些模型和它們的特徵的文檔中的更多信息, 哪種模式是您使用?英語寬帶模式?速度很大程度上取決於錄製的質量。什麼是你得到的實時因素(RTF =解碼時間/音頻時間)。哪種音頻格式?請嘗試通過我們的演示來提供您的文件。當我對它說話時,我總是比實時識別更快。 Dani –

回答

0

開源實現基於Kaldi這樣CloudASR可以運行比實時更快了,你還可以調整系統的速度和精度。您將不得不雖然維護服務器雲之間進行平衡。

+0

數據隱私也可能是一個值得關注的問題...... –

+0

如果您在自己的雲中運行該軟件,該擔心什麼?這比將數據發送給IBM要好得多。 –

0

Watson語音到文本服務API提供具有不同性能特徵的不同輸入模型。根據音頻的質量,BroadbandModel比實時略快,但NarrowBand比實時略慢。你在使用哪種模式?如果您還沒有使用寬帶模式,請嘗試使用該模式,因爲假設音頻也是實時流式傳輸,那麼它應該更適合字幕應用。

您可以在http://www.ibm.com/watson/developercloud/doc/speech-to-text/input.shtml#models

相關問題