語音識別算法如何識別同音字？

我在思考這個問題早。做現代的算法（特別是那些語音轉換成文本）用什麼線索來確定哪些同音字，據說（例如到，也還是兩個？）語音識別算法如何識別同音字？

他們使用上下文線索？句子的結構？也許還有每個字平常發音的方式略有差別（例如，我通常持有鄰聲長於到）。前兩者的組合似乎最合理。

他們是否使用上下文線索？

是，ASR系統使用跨詞的上下文。例如，如果前面的單詞是「正在進行」，則下一個單詞可能是「到」而不是「兩個」。 ASR系統考慮了概率並選擇了最可能的解碼變體。

句子結構？

是的，ASR系統使用更先進的語言模型以及根據上下文來預測可能的單詞。

也許在每個單詞通常發音的方式上有細微的差別（例如，我通常把o聲音放在兩個比in更長的位置）。

那也是。其實「太」和「到」的發音完全不同。「to」往往減少爲shwa。

如果您對語音識別算法感興趣，可以閱讀ASR書籍或在線課程。詳情請參閱

2013-02-05 03:37:42

能否請你幫我在此http://stackoverflow.com/questions/26134036/how-to-detect-homophone –

你期望什麼樣的幫助？ –

回答