我們正試圖通過JAVA客戶端使用Google StreamingRecognize方法。我們正在從麥克風讀取數據並將其發送到語音API。 使用以下設置: 識別配置 - LINEAR16,16KHz,en-US 我們嘗試將不同的緩衝區大小推送到StreamingRecognize(最多16000字節)。 我們觀察到獲得第一個結果需要至少4-5秒,並且在中間結果被流式傳輸之後。 任何人都可以確認這是否是API的預期行爲。也很高興知道爲什麼有這麼多的延遲。 是否有任何方法或解決方法來減少延遲。Google-Cloud-Speech:StreamingRecognize方法的第一個中間結果的延遲
請注意,後延遲我們得到的中間結果和最終的完整話語與合理的準確性
我*懷疑*它正在等待獲得一些上下文才能產生第一個中期結果。 –
任何關於上下文可能的猜測以及是否有可能最大限度地減少上下文造成的延遲。 Android SpeechRecognizer似乎工作正常。 –
基本上,整個話語的語境。我不知道Android SpeechRecognizer是否使用了相同的技術* - 並且它可能會針對非常不同的場景進行優化(例如,對於許多句子,只需要幾個字)。我不確定自己是否還有我的C#流式語音應用程序 - 這是我使用它之後的一段時間。我記得開始的時候有一點延遲,但看起來並不大,我懷疑它是4-5秒。如果我有時間,我會盡力找到它並重現。 –