在我的項目中,我使用名爲LIUM_SpkDiarization-4.7.jar的庫,但我不太確定它是如何工作的。請有人解釋一下嗎?LIUM揚聲器Diaritization如何工作?
此外,我用它與python。
的鏈接庫是:提前https://voiceid.googlecode.com/svn-history/r11/trunk/scripts/LIUM_SpkDiarization-4.7.jar
感謝。
在我的項目中,我使用名爲LIUM_SpkDiarization-4.7.jar的庫,但我不太確定它是如何工作的。請有人解釋一下嗎?LIUM揚聲器Diaritization如何工作?
此外,我用它與python。
的鏈接庫是:提前https://voiceid.googlecode.com/svn-history/r11/trunk/scripts/LIUM_SpkDiarization-4.7.jar
感謝。
我不知道這個工具。它看起來非常酷。你檢查了他們的維基?他們有關於系統如何工作的一些論文:http://lium3.univ-lemans.fr/diarization/doku.php
基本上,他們計算MFCC梅爾頻率倒譜系數(標準技術)。這是基本步驟。它生成一個要處理的特徵空間。這與在滑動窗口上及時計算FFT相似。最終使用貝葉斯信息準則(BIC)方法對這些時間分片特徵執行聚類。首先要劃分基於時間的特徵空間,然後進行聚類,併爲每個說話者找到一致的特徵。 HMM,viterbi,EM,有時也可以使用GMM。
我不知道該算法不夠好詳細解釋一下,但是這也應該有所幫助:http://lium3.univ-lemans.fr/diarization/doku.php/overview
感謝。我見過這個wiki,它看起來很有希望。我會研究它。 – dmacan23