1
我正在製作一個應記錄可識別音頻的程序,以便稍後可以輕鬆地將其與其他音頻文件進行比較。 音頻文件將包含類似的講話,所以我想知道什麼是更容易做到:對音頻的識別
- 實現語音識別算法和保存/比較輸出,
- 或執行/創造了一種算法,創建類似於例如音頻指紋的東西快速傅里葉變換並比較這些?
有沒有人在這方面的一些經驗?我想知道第二種解決方案是否能在相對較短的時間內實現。也許有一種解決方案不太難編碼,我只是沒有找到它?
我正在製作一個應記錄可識別音頻的程序,以便稍後可以輕鬆地將其與其他音頻文件進行比較。 音頻文件將包含類似的講話,所以我想知道什麼是更容易做到:對音頻的識別
有沒有人在這方面的一些經驗?我想知道第二種解決方案是否能在相對較短的時間內實現。也許有一種解決方案不太難編碼,我只是沒有找到它?
看看聲音指紋印刷,你可以在github找到大部分代碼!它應該幫助你解決你的問題,更具體的https://github.com/lalinsky/chromaprint/tree/master/tools
更多信息,看看這個線程,這個話題已經被廣泛報道,Open source audio pattern recognition (finger printing)和Creating custom voice commands (GNU/Linux)