2017-07-25 64 views
2

可以將Microsoft Bing Speech API配置爲僅返回數字和字母,而不是全部單詞?可以將Microsoft Bing Speech配置爲僅返回數字/字母嗎?

該用例正在翻譯加拿大郵政編碼。防爆。 M 1 B 0 R 3.微軟可能會返回「Em 1 Be 0 Are 3」

我們的音頻文件是8000hz,並用「M-ULAW」編碼。我們在改變採樣率或編碼方面沒有靈活性。我們正在使用「SMD」方案,但我無法找到有關此功能的任何文檔。基地請求URI:

https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672-91D7-4C74-8AD8-42B1D98141A5&device.os=your_device_os&version=3.0

是否有一種方式來獲得來自微軟的這種使用情況更準確的反應?

謝謝

回答

1

你可以嘗試使用Microsoft's Custom Speech Service(以前稱爲自定義識別智能服務,或CRIS)創建和使用一個custom language model

guidelines for transcription of custom language models說:「常見縮寫詞可以保留爲一個單一的實體,在字母之間沒有句點或間隔,但所有其他縮寫詞應該用單獨的字母書寫,每個字母用一個空格分隔」,並且包括這個例子:

Original text    After normalization 
-----------------------  --------------------------- 
play OU812 by Van Halen  play O U 8 1 2 by Van Halen 

於是跟隨他們的指引,您的自定義語言模型將是一個文件,其中的每一行看起來是這樣的:

M 1 B 0 R 3 

您可以輕鬆地生成包含成千上萬的實例文件基於代碼的結構,這在正則表達式的格式是這樣的加拿大郵政編碼:

[ABCEGHJKLMNPRSTVXY][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9][ABCEGHJKLMNPRSTVWXYZ][0-9] 

(上述表達式從this answer about validating postal codes拍攝)

通過這樣做,你告訴識別器什麼樣的事情你期望人們說,並幫助它選擇時,有多種可能性的聲音(如「U」與「你」)。我認爲這會對你得到的結果產生巨大的影響。

+0

所以我做了:我上傳了一個包含所有加拿大郵政編碼前綴(M1B,M8X,B3L等)的新行分隔文件,而不是在Language Model數據集中包含所有可能的郵政編碼的文件。結果仍然不完美。例如,「R 2 G」仍被轉錄爲「R 2 C」。我認爲聲學語言模型可能是一個更好的選擇,但這需要收集很多很多樣本音頻文件。 –

+0

正確的我忘記提及,尤其是因爲你使用μ律/畝法編碼,創建自己的聲學模型也可能是有益的。我確實認爲自定義語言模型將會是你能做的最好的事情。一些識別系統(例如pocketsphinx)可讓您指定語法而不是統計語言模型,這也值得嘗試。 –

相關問題