可以將Microsoft Bing Speech配置爲僅返回數字/字母嗎？

可以將Microsoft Bing Speech API配置爲僅返回數字和字母，而不是全部單詞？可以將Microsoft Bing Speech配置爲僅返回數字/字母嗎？

該用例正在翻譯加拿大郵政編碼。防爆。 M 1 B 0 R 3.微軟可能會返回「Em 1 Be 0 Are 3」

我們的音頻文件是8000hz，並用「M-ULAW」編碼。我們在改變採樣率或編碼方面沒有靈活性。我們正在使用「SMD」方案，但我無法找到有關此功能的任何文檔。基地請求URI：

https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672-91D7-4C74-8AD8-42B1D98141A5&device.os=your_device_os&version=3.0

是否有一種方式來獲得來自微軟的這種使用情況更準確的反應？

謝謝

來源

2017-07-25 Bobby Bruce

你可以嘗試使用Microsoft's Custom Speech Service（以前稱爲自定義識別智能服務，或CRIS）創建和使用一個custom language model。

guidelines for transcription of custom language models說：「常見縮寫詞可以保留爲一個單一的實體，在字母之間沒有句點或間隔，但所有其他縮寫詞應該用單獨的字母書寫，每個字母用一個空格分隔」，並且包括這個例子：

Original text    After normalization 
-----------------------  --------------------------- 
play OU812 by Van Halen  play O U 8 1 2 by Van Halen

於是跟隨他們的指引，您的自定義語言模型將是一個文件，其中的每一行看起來是這樣的：

M 1 B 0 R 3

您可以輕鬆地生成包含成千上萬的實例文件基於代碼的結構，這在正則表達式的格式是這樣的加拿大郵政編碼：

[ABCEGHJKLMNPRSTVXY][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9]

（上述表達式從this answer about validating postal codes拍攝）

通過這樣做，你告訴識別器什麼樣的事情你期望人們說，並幫助它選擇時，有多種可能性的聲音（如「U」與「你」）。我認爲這會對你得到的結果產生巨大的影響。

來源

2017-07-27 20:57:06

所以我做了：我上傳了一個包含所有加拿大郵政編碼前綴（M1B，M8X，B3L等）的新行分隔文件，而不是在Language Model數據集中包含所有可能的郵政編碼的文件。結果仍然不完美。例如，「R 2 G」仍被轉錄爲「R 2 C」。我認爲聲學語言模型可能是一個更好的選擇，但這需要收集很多很多樣本音頻文件。 –

正確的我忘記提及，尤其是因爲你使用μ律/畝法編碼，創建自己的聲學模型也可能是有益的。我確實認爲自定義語言模型將會是你能做的最好的事情。一些識別系統（例如pocketsphinx）可讓您指定語法而不是統計語言模型，這也值得嘗試。 –

可以將Microsoft Bing Speech配置爲僅返回數字/字母嗎？

回答

相關問題