我正在使用微軟語音C#API的家庭自動化命令如何使用Microsoft Speech從語音模式中識別發言者?
我想知道是否有一種方法或內置的C#方法散列語音輸入並識別誰說話。如果是Alice或Bob說「Hello Alice」或「Hello Bob」。
編輯:
的Microsoft Speech API可以提供記錄的一個.wav。這也許能湊,工藝,...瞭解誰在說話:
- 呼聲很高,慢調,... =>鮑勃
- 高的聲音,快速調製,... =>愛麗絲
我正在使用微軟語音C#API的家庭自動化命令如何使用Microsoft Speech從語音模式中識別發言者?
我想知道是否有一種方法或內置的C#方法散列語音輸入並識別誰說話。如果是Alice或Bob說「Hello Alice」或「Hello Bob」。
編輯:
的Microsoft Speech API可以提供記錄的一個.wav。這也許能湊,工藝,...瞭解誰在說話:
說話人識別是一個難題,並且仍然是一個活躍的研究領域。我不認爲微軟語音API有任何揚聲器識別支持,但不是100%肯定的。
我發現以下文章在研究主題時非常有幫助。它介紹了該主題,並提供了一個非常粗糙的實現。可能是一個開始的好地方。
http://www.ibm.com/developerworks/opensource/library/os-sndpeek/index.html
哦非常interresting!謝謝。我希望能有一種方法來識別少數演講者(男性/女性)。 – 2012-08-06 08:31:08
它看起來就像你正在試圖解決議長Diarization問題(找到誰說話時);因特網上有很多可用的工具包。我可以推薦一個名爲LIUM的(在Java上運行):http://www-lium.univ-lemans.fr/diarization/doku.php。
如果您只是區分愛麗絲和鮑勃感興趣,您可以看看上面網站的腳本頁面中的性別檢測部分(或直接在這裏http://www-lium.univ-lemans.fr/diarization/doku.php/gender_detection)。
您可以使用微軟的說話人識別API來完成這個任務:https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api
微軟爲此,提供兩種API:說話人確認&說話人識別。
你可以找到自己的C#& Python的軟件開發工具包在這裏:https://github.com/Microsoft/ProjectOxford-ClientSDK/tree/master/SpeakerRecognition
我不是在尋找使用答案(Kinect的骨架)或2步識別(如RFID標籤) – 2012-08-03 12:53:24
@VamsiKrishna不,你不明白。我正在尋找一種基於語音調製的方式來了解誰在說Alice或Bob。 Microsoft Speech可以提供可能被處理或散列的.wav?發現誰在發言 – 2012-08-03 17:27:14
@StackUnderflow我同意但接受答案應該是好的。這很容易回答錯誤的事情。並降低StackOverflow質量。 – 2012-08-03 19:30:22