有人可以解釋i-vector和d-vector之間的區別嗎?我所知道的是他們廣泛用於說話人/語音識別系統,他們是表達說話人信息的模板,但我不知道主要區別。i-vector和d-vector之間的區別
回答
我不知道如何用簡單的語言正確表徵d矢量,但我可以幫助一點點。
身份向量或i-vector,是一個特定語音片段的頻譜特徵,通常是音素的一個音素,很少(據我所知)與整個音素一樣大。基本上,這是一個離散譜圖,以與時間片的高斯混合同構的形式表達。
A d-矢量從i-矢量序列中提取,並且可以用於可靠地將聲音片段與其來源進行匹配 - 例如識別誰說出給定的短語。
I向量是表示幀級別特徵的分佈模式的特質特徵的特徵。 I矢量提取本質上是GMM超向量的降維(雖然在計算i向量時不提取GMM超向量)。它用本徵語音自適應方案或JFA技術以類似的方式提取,但是每個句子(或輸入語音樣本)被提取。
另一方面,使用DNN提取d向量。爲了提取d向量,需要採用疊加濾波器組特徵的DNN模型(類似於ASR中使用的DNN聲學模型),並且在輸出上生成單熱話筒標籤(或話者概率)。 D矢量是來自該DNN的最後隱藏層的平均激活。因此,與i矢量框架不同,它沒有任何有關特徵分佈的假設(i矢量框架假定i矢量或潛變量具有高斯分佈)。
所以總之,這些是從完全不同的方法或假設中提取的兩個不同的特徵。我推薦你閱讀這些論文:
N.Dehak,P.Kenny,R.Dehak,P.Dumouchel,and P.Ouellet,「Front-end factor analysis for speaker verification」,IEEE Transactions on Audio,Speech ,和語言處理,第一卷。 19,沒有。 4,pp。788-798,2011.
E. Variani,X. Lei,E. McDermott,IL Moreno和J. G-Dominguez,「Deep neural networks for small footprint text-dependent speaker verification」,在Proc。 ICASSP,2014,第4080-4084頁。
- 1. 之間的〜/和的區別../
- 2. '#','%'和'$'之間的區別
- 3. {!!之間的區別!!}和{{}}
- 4. '+ ='和'= +'之間的區別?
- 5. 「。+」和「。+?」之間的區別
- 6. .eq之間的區別。和==
- 7. #。/和#之間的區別。 ./
- 8. !=和!之間的區別==
- 9. 「%〜dp0」和「。\」之間的區別?
- 10. | =和^ = css之間的區別
- 11. 之間的區別。和#
- 12. ==和case之間的區別?
- 13. 「**/* /」和「** /」之間的區別?
- 14. jQuery - '。'之間的區別和「#」
- 15. 「?1」和「?」之間的區別
- 16. `%in%`和`==`之間的區別
- 17. fmod和%之間的區別
- 18. 之間的區別:+和:+
- 19. 類區域和堆之間的區別
- 20. SPFile和PublishingPage類別之間的區別
- 21. 子類和類別之間的區別?
- 22. System.Timers.Timer Enabled = true和.Start()之間的區別Enabled = true和.Start()之間的區別
- 23. isForeground()和onExposed和onObscured之間的區別
- 24. $ .ajax()和$ .get()和$ .load()之間的區別
- 25. 和intent和setcontentview之間的區別
- 26. Java和C#和.NET之間的區別
- 27. NSthread和NStimer和NSNotifcation之間的區別?
- 28. sys.log()和console.log()和console.error()之間的區別?
- 29. 關注與責任之間的區別(即SRP和SoC之間的區別)?
- 30. make中的「$(shell ...)」和「$$(...)」之間的區別