2

有人可以解釋i-vector和d-vector之間的區別嗎?我所知道的是他們廣泛用於說話人/語音識別系統,他們是表達說話人信息的模板,但我不知道主要區別。i-vector和d-vector之間的區別

回答

0

我不知道如何用簡單的語言正確表徵d矢量,但我可以幫助一點點。

身份向量或i-vector,是一個特定語音片段的頻譜特徵,通常是音素的一個音素,很少(據我所知)與整個音素一樣大。基本上,這是一個離散譜圖,以與時間片的高斯混合同構的形式表達。

A d-矢量從i-矢量序列中提取,並且可以用於可靠地將聲音片段與其來源進行匹配 - 例如識別誰說出給定的短語。

2

I向量是表示幀級別特徵的分佈模式的特質特徵的特徵。 I矢量提取本質上是GMM超向量的降維(雖然在計算i向量時不提取GMM超向量)。它用本徵語音自適應方案或JFA技術以類似的方式提取,但是每個句子(或輸入語音樣本)被提取。

另一方面,使用DNN提取d向量。爲了提取d向量,需要採用疊加濾波器組特徵的DNN模型(類似於ASR中使用的DNN聲學模型),並且在輸出上生成單熱話筒標籤(或話者概率)。 D矢量是來自該DNN的最後隱藏層的平均激活。因此,與i矢量框架不同,它沒有任何有關特徵分佈的假設(i矢量框架假定i矢量或潛變量具有高斯分佈)。

所以總之,這些是從完全不同的方法或假設中提取的兩個不同的特徵。我推薦你閱讀這些論文:

N.Dehak,P.Kenny,R.Dehak,P.Dumouchel,and P.Ouellet,「Front-end factor analysis for speaker verification」,IEEE Transactions on Audio,Speech ,和語言處理,第一卷。 19,沒有。 4,pp。788-798,2011.

E. Variani,X. Lei,E. McDermott,IL Moreno和J. G-Dominguez,「Deep neural networks for small footprint text-dependent speaker verification」,在Proc。 ICASSP,2014,第4080-4084頁。