i-vector和d-vector之間的區別

有人可以解釋i-vector和d-vector之間的區別嗎？我所知道的是他們廣泛用於說話人/語音識別系統，他們是表達說話人信息的模板，但我不知道主要區別。i-vector和d-vector之間的區別

來源

2016-05-29 Nikas Žalias

我不知道如何用簡單的語言正確表徵d矢量，但我可以幫助一點點。

身份向量或i-vector，是一個特定語音片段的頻譜特徵，通常是音素的一個音素，很少（據我所知）與整個音素一樣大。基本上，這是一個離散譜圖，以與時間片的高斯混合同構的形式表達。

A d-矢量從i-矢量序列中提取，並且可以用於可靠地將聲音片段與其來源進行匹配 - 例如識別誰說出給定的短語。

來源

2016-06-01 22:17:58 Prune

I向量是表示幀級別特徵的分佈模式的特質特徵的特徵。 I矢量提取本質上是GMM超向量的降維（雖然在計算i向量時不提取GMM超向量）。它用本徵語音自適應方案或JFA技術以類似的方式提取，但是每個句子（或輸入語音樣本）被提取。

另一方面，使用DNN提取d向量。爲了提取d向量，需要採用疊加濾波器組特徵的DNN模型（類似於ASR中使用的DNN聲學模型），並且在輸出上生成單熱話筒標籤（或話者概率）。 D矢量是來自該DNN的最後隱藏層的平均激活。因此，與i矢量框架不同，它沒有任何有關特徵分佈的假設（i矢量框架假定i矢量或潛變量具有高斯分佈）。

所以總之，這些是從完全不同的方法或假設中提取的兩個不同的特徵。我推薦你閱讀這些論文：

N.Dehak，P.Kenny，R.Dehak，P.Dumouchel，and P.Ouellet，「Front-end factor analysis for speaker verification」，IEEE Transactions on Audio，Speech ，和語言處理，第一卷。 19，沒有。 4，pp。788-798，2011.

E. Variani，X. Lei，E. McDermott，IL Moreno和J. G-Dominguez，「Deep neural networks for small footprint text-dependent speaker verification」，在Proc。 ICASSP，2014，第4080-4084頁。

來源

2017-04-20 05:18:21 kwh1990

i-vector和d-vector之間的區別

回答

相關問題