1

在試圖將語音轉換爲文本(IBM語音網關IVR應用程序)以識別字母數字字符串時,我想知道是否可以創建自定義語法或實體來限制STT以識別單個字母和數字,排除單詞共。例如,這是一個典型的字符串:20Y0H8C。沃森回來的話和數字,如「兩」而不是「2」。數字字符串正常工作。我意識到字母識別對於典型的ASR是有問題的,但我希望沃森能夠勝任這項任務。我注意到沒有用於字母數字字符的系統實體。任何建議,非常感謝。IBM Speech to Text字母數字字符串識別?

回答

2

在這種情況下,請將smart_formatting設置爲true

smart_formatting參數將日期,時間,一系列數字和數字,電話號碼,貨幣值和互聯網地址轉換爲識別請求的最終轉錄本中的更傳統的表示形式。轉換使轉錄本更具可讀性,並可更好地對轉錄結果進行後處理。將參數設置爲true以啓用智能格式化,如下例所示;默認情況下,參數爲false,不執行智能格式化。

檢查:

curl -X POST -u {username}:{password} 
--header "Content-Type: audio/flac" 
--data-binary @{path}audio-file.flac 
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?smart_formatting=true" 

結果:

語音:數量是百萬101

結果:數量爲1000101

檢查IBM官方documentation

注意:智能格式功能目前是beta功能,僅適用於美國英語。

+0

感謝您的回答,但問題是在字符串中使用字母時。 Smart_formatting已啓用,但沒有字母數字字符串。我也嘗試過使用input.text.match(「^ [a-zA-Z0-9] * $」),它可以在使用聊天窗口時使用,但是使用STT命中或者未命中。目標是讓沃森只接受字母數字字符串,從而真正縮小範圍。數據是固定長度的字符串(7個字符),字母可以在任何地方。例如:HV00310。 –

+0

我應該注意到我正在使用IBM語音網關(STT是窄帶)。 –