2017-07-04 25 views
0

在很多語音識別論文中,我看到這個術語「幀的上下文窗口」。我不確定這一點,但看起來好像你從一個話語中取出一個幀x,並且將這個幀連接到5個先前幀和5個未來幀。這個上下文窗口的標籤是中心框架。我對嗎?幀語境識別的上下文窗口

謝謝

(順便說一下5號只是一個例子)

回答

1

是的,這個詞得到普及與應用程序深層神經網絡(DNN)的自動語音識別開始。例如,「11幀聲音上下文窗口」意味着將5個前一幀和5個未來幀的特徵向量連接到當前幀的向量。但標籤仍然是中心框架的標籤。使用上下文窗口改進了DNN模型的性能,但是以前沒有使用HMM(隱馬爾科夫模型)。

請參閱this文章以獲取更多信息。