2013-02-04 333 views
1

我在思考這個問題早。做現代的算法(特別是那些語音轉換成文本)用什麼線索來確定哪些同音字,據說(例如到,也還是兩個?)語音識別算法如何識別同音字?

他們使用上下文線索?句子的結構?也許還有每個字平常發音的方式略有差別(例如,我通常持有鄰聲長於)。前兩者的組合似乎最合理。

回答

6

他們是否使用上下文線索?

是,ASR系統使用跨詞的上下文。例如,如果前面的單詞是「正在進行」,則下一個單詞可能是「到」而不是「兩個」。 ASR系統考慮了概率並選擇了最可能的解碼變體。

句子結構?

是的,ASR系統使用更先進的語言模型以及根據上下文來預測可能的單詞。

也許在每個單詞通常發音的方式上有細微的差別(例如,我通常把o聲音放在兩個比in更長的位置)。

那也是。其實「太」和「到」的發音完全不同。 「to」往往減少爲shwa。

如果您對語音識別算法感興趣,可以閱讀ASR書籍或在線課程。詳情請參閱

https://sourceforge.net/p/cmusphinx/discussion/speech-recognition/thread/3ea89abf/

+0

能否請你幫我在此http://stackoverflow.com/questions/26134036/how-to-detect-homophone –

+0

你期望什麼樣的幫助? –