可以將Microsoft Bing Speech API配置爲僅返回數字和字母,而不是全部單詞?可以將Microsoft Bing Speech配置爲僅返回數字/字母嗎?
該用例正在翻譯加拿大郵政編碼。防爆。 M 1 B 0 R 3.微軟可能會返回「Em 1 Be 0 Are 3」
我們的音頻文件是8000hz,並用「M-ULAW」編碼。我們在改變採樣率或編碼方面沒有靈活性。我們正在使用「SMD」方案,但我無法找到有關此功能的任何文檔。基地請求URI:
https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672-91D7-4C74-8AD8-42B1D98141A5&device.os=your_device_os&version=3.0
是否有一種方式來獲得來自微軟的這種使用情況更準確的反應?
謝謝
所以我做了:我上傳了一個包含所有加拿大郵政編碼前綴(M1B,M8X,B3L等)的新行分隔文件,而不是在Language Model數據集中包含所有可能的郵政編碼的文件。結果仍然不完美。例如,「R 2 G」仍被轉錄爲「R 2 C」。我認爲聲學語言模型可能是一個更好的選擇,但這需要收集很多很多樣本音頻文件。 –
正確的我忘記提及,尤其是因爲你使用μ律/畝法編碼,創建自己的聲學模型也可能是有益的。我確實認爲自定義語言模型將會是你能做的最好的事情。一些識別系統(例如pocketsphinx)可讓您指定語法而不是統計語言模型,這也值得嘗試。 –