有沒有人知道一個(最好是C#.Net)庫,可以讓我在聲音錄製中找到某個特定人員正在講話的那些片段?識別某人講話時的片段?
回答
這可能與該工具包喊:http://shout-toolkit.sourceforge.net/index.html
它是用C++編寫,併爲Linux測試,但它也應該在Windows或OSX下運行。
該工具包是我的博士研究自動語音識別(ASR)的副產品。將它用於ASR本身可能並不那麼簡單,但對於語音活動檢測(SAD)和diarization(查找某個特定人員的所有語音)來說,使用它非常容易。這裏是一個例子:
創建一個16KHz,16位,小端,單聲道無標題PCM音頻文件。我使用ffmpeg創建原始文件:ffmpeg -i [INPUT_FILE] -vn -acodec pcm_s16le -ar 16000 -ac 1 -f s16le [RAW_FILE]以小端編碼文件大小(4字節)爲前綴無標頭數據。確保該文件具有.raw擴展名,因爲shout_cluster根據擴展名檢測文件類型。
執行語音/非語音分割: ./shout_segment -a [RAW_FILE] -ams [SHOUT_SAD_MODEL] -MO [SAD_OUTPUT] 輸出文件將提供在其中某人正在講話片段(標記當然,因爲這一切都是自動完成的,所以系統可能會出錯......),其中有聲音不是語音(「聲音」)或靜音(「靜音」)。
執行diarization: ./shout_cluster -a [RAW_FILE] -mo [DIARIZATION_OUTPUT] -mi [SAD_OUTPUT] 使用shout_segment的輸出,它會嘗試確定多少個揚聲器的記錄活躍,標記每個揚聲器(「SPK01」,「SPK02」等),然後查找每個揚聲器的所有語音段。
我希望這會有所幫助!
儘管上述答案是準確的,但我在Linux上安裝SHOUT時遇到了安裝問題的更新。 undefined reference to pthread_join
其解決方案我發現是從喊安裝拉鍊打開configure-make.sh並修改該行
CXXFLAGS="-O3 -funroll-loops -mfpmath=sse -msse -msse2" LDFLAGS="-lpthread" ../configure
到
CXXFLAGS="-O3 -funroll-loops -mfpmath=sse -msse -msse2" LDFLAGS="-pthread" ../configure
注意的lpthread來改變在Linux系統上的pthread。
操作系統:Linux Mint的18 了聲版:發佈2010年版,0-3
感謝您的回答,男士!你最終設法成功識別了什麼? – Roman
使用SHOUT-no,我切換到Python,因爲它對音頻分析有更好的支持。 –
- 1. iSpeech。識別用戶講話的時間
- 2. 「說話人識別和分段」
- 3. 說話人識別
- 4. Excel不識別某些日期/時間,但識別其他人
- 5. 語音識別意圖在TTS結束講話之前開始
- 6. 用HTK工具包歌手識別/說話人識別
- 7. 說話人識別在iPhone應用
- 8. roc曲線和說話人識別
- 9. 識別會話超時
- 10. TextToSpeech如何知道講話結束時是否正在講話
- 11. getApplicationContext()不能在片段講座
- 12. 如何識別某人是否在剪貼板上有某物?
- 13. 在創建對話框片段時忽略對話框片段
- 14. 人臉識別 - Python
- 15. Javacv:eigenface人臉識別
- 16. Android人臉識別
- 17. 人臉識別Node.Js
- 18. 人臉識別opencv
- 19. C#人臉識別
- 20. 如何識別我的地圖(谷歌地圖API V2)片段,其中活性通話片段
- 21. 說話人識別性能:等誤差率(EER)和識別精度
- 22. AS3中的人臉識別
- 23. 在Android的人臉識別
- 24. R中的人臉識別
- 25. 識別controlTextDidEndEditing的發件人
- 26. 人臉識別OpenCV的3
- 27. Java中的人臉識別
- 28. 自主實時人臉識別系統
- 29. 人臉識別如何實時工作
- 30. Dlib android實時人臉識別問題
謝謝您的回答,Marijn,併爲您的步驟上市!這種語言是否獨立,即可以用希伯來語,日語等工作?(令人驚訝的是,這些「可能選擇爲這個例子,因爲他們是如此奇特的語言」正是所需的語言:) – Avi
我剛剛使用這個命令和終端只是凍結在第二個命令。 Ubuntu 17.10。也許這是因爲我對這條指令沒有做任何事情:「以小端編碼文件大小(4字節)爲前綴無標頭數據」。是這樣嗎?我怎麼做? – Roman