我期待建立一個應用程序,根據調用者的特定產品請求獲取產品的庫存信息。所有這些產品都是字母數字,並且不使用任何詞語,這是問題的一部分。新Twilio語音識別(強制字母數字,「非字」輸入?)
在測試呼叫,我請「DBN5009K」
在日誌中,你可以看到,它把它理解如下:
SpeechResult BBN 5009 okay
我不是尋找一個完美的結果,並計劃清理輸入的空白,然後運行Levenshtein算法來匹配最近的項目。如果結果是B BN5009 K,我相信我可以將它匹配到D BN5009K,沒有太大麻煩。 (它的Levenshtein距離爲1.)B BN5009 好吧可能永遠不會正確匹配,距離長度只有11個字符的字符串的距離爲5。
Twilio可以被迫不使用「單詞」?它可以用適當選項的特定數據集進行訓練嗎?他們不需要將培訓作爲一種營銷加,幾乎總是這樣,但在這種情況下,這是一個問題。有什麼建議麼?謝謝。
Seth
如果你通過電話告訴我DBN,我(作爲人類)可能會理解BBN。那麼,你如何期望一臺機器在解析音頻時不會犯錯誤。如果你要通過語音輸入數據,你的「DBN5009K」應該是「Delta Bravo November 5 0 0 9 Kilo」。 –
我完全同意。不過,D和B互換不是我的問題。這是K交換「好吧」。我可以處理第一個問題,但不是第二個問題。這就是爲什麼我正在尋找一種方法來將Twilio的響應引擎僅限於字母和數字。呼叫標記類型的方法可能會更好,但這些都是不成熟的用戶,如果他們必須爲每個字母提供單詞,或者使用電話鍵盤輸入項目編號,那麼他們的操作只會達到0。謝謝。 – Seth
有許多語音API可以提供靈活的語言規範,但不確定你爲什麼會遇到Twilio,要使它精確地識別複雜的序列是非常困難的。 –