2010-05-07 71 views
2

我打算編寫一個會話分析軟件,它可以識別各個揚聲器,它們的音高和強度。音高和強度有點直接(通過自相關調整)。識別個人聲音

我該如何去認識個別發言者,以便我可以記錄他/她的特徵?爲每個說話人的頻率存儲一些啓發式就足夠了嗎?我可以假設一次只有一個人說話(嚴格不重疊)。我還可以假設,在進行實際分析之前,每位演講者都可以記錄一分鐘的數據。

+1

+1爲不可能的問題 – 2010-05-07 02:50:32

+0

你打算如何處理強度?話筒始終與說話者的距離是否固定? – mtrw 2010-05-07 04:33:59

+0

我確信有關於這個問題的博士論文,我不確定他們的作者是否在積極的stackoverflow然而... – Justin 2010-05-07 05:21:52

回答

2

瀝青和強度自己告訴你什麼。你真的需要分析如何變化。爲了識別不同的揚聲器,您需要將語音音頻轉換爲某種類型的feature space,然後在該特徵空間中與您的揚聲器數據庫進行比較。您可能想要谷歌的一般術語是prosody - 請參閱http://en.wikipedia.org/wiki/Prosody_(linguistics)。雖然你谷歌搜索,你可能也想要閱讀speaker identification又名speaker recognition,見例如。 http://en.wikipedia.org/wiki/Speaker_identification

0

如果你仍在研究這個...你是否在聲音輸入上使用語音識別?因爲Microsoft SAPI爲應用程序提供了一個豐富的API來挖掘語音聲音,這可能會使說話人識別問題更容易處理。我認爲你可以在波形中獲得音素位置。這可以讓你對元音進行功率譜分析,例如,可以用它來生成區分說話人的特徵。 (在任何人開始嘀咕音高和音量之前,請記住共振峯曲線來自聲道形狀,並且與音高相當獨立,這是聲帶頻率,並且相對位置和相對振幅是相對的! )與整體音量無關。)音素持續時間也可能是一個有用的功能。 'n'聲音的能量分佈可以提供'鼻子'特徵。等等。只是一個想法。我期望自己能夠在這方面工作。