識別個人聲音

我打算編寫一個會話分析軟件，它可以識別各個揚聲器，它們的音高和強度。音高和強度有點直接（通過自相關調整）。識別個人聲音

我該如何去認識個別發言者，以便我可以記錄他/她的特徵？爲每個說話人的頻率存儲一些啓發式就足夠了嗎？我可以假設一次只有一個人說話（嚴格不重疊）。我還可以假設，在進行實際分析之前，每位演講者都可以記錄一分鐘的數據。

2010-05-07 raheel

+1爲不可能的問題 – 2010-05-07 02:50:32

你打算如何處理強度？話筒始終與說話者的距離是否固定？ – mtrw 2010-05-07 04:33:59

我確信有關於這個問題的博士論文，我不確定他們的作者是否在積極的stackoverflow然而... – Justin 2010-05-07 05:21:52

瀝青和強度自己告訴你什麼。你真的需要分析如何變化。爲了識別不同的揚聲器，您需要將語音音頻轉換爲某種類型的feature space，然後在該特徵空間中與您的揚聲器數據庫進行比較。您可能想要谷歌的一般術語是prosody - 請參閱http://en.wikipedia.org/wiki/Prosody_(linguistics)。雖然你谷歌搜索，你可能也想要閱讀speaker identification又名speaker recognition，見例如。 http://en.wikipedia.org/wiki/Speaker_identification

來源

2010-05-21 07:27:49

如果你仍在研究這個...你是否在聲音輸入上使用語音識別？因爲Microsoft SAPI爲應用程序提供了一個豐富的API來挖掘語音聲音，這可能會使說話人識別問題更容易處理。我認爲你可以在波形中獲得音素位置。這可以讓你對元音進行功率譜分析，例如，可以用它來生成區分說話人的特徵。（在任何人開始嘀咕音高和音量之前，請記住共振峯曲線來自聲道形狀，並且與音高相當獨立，這是聲帶頻率，並且相對位置和相對振幅是相對的！）與整體音量無關。）音素持續時間也可能是一個有用的功能。 'n'聲音的能量分佈可以提供'鼻子'特徵。等等。只是一個想法。我期望自己能夠在這方面工作。

來源

2011-01-29 23:20:26 Spike0xff

識別個人聲音

回答

相關問題