在音頻文件中搜索特定口語詞

我有大約3000多個同一作者的音頻文件。我需要抄錄這些講座，筆者在這裏講述了一個特定的詞。在音頻文件中搜索特定口語詞

所以我需要一個軟件解決方案，它會自動找到所有文件的特定單詞說。這個詞的發音方式可能有所不同，因爲這些音頻文件已經用了15年。

免費/開源解決方案表示讚賞。

我試過搜索，並瞭解了獅身人面像。但是我無法將其設置爲用於我的項目。任何幫助是極大的讚賞。請

2014-06-18 amol_beast

嘿你是否能夠實現這一目標？如果有，請分享如何？ github回購會很棒！ –

您可以使用CMUSphinx，這是一款開源語音識別引擎，支持關鍵字識別功能。

1）將音頻信號轉換成需要的格式 - 16kHz的16位單聲道文件：

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

3）安裝最新pocketsphinx和sphinxbase下載en-us generic acoustic model

4）運行檢測：

pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes

它會打印您檢測到的關鍵字及其時間。爲了獲得最佳檢測精度，您可以調整kws_threshold。

2014-06-18 10:21:05

感謝尼古拉的回答。由於這種聲學模型是通用的，我如何根據演講者已錄製的音頻文件製作聲學模型？ –

對於關鍵字識別，您不需要與揚聲器相關的模型，它不會顯着改進。如果你仍然想適應它，那麼有一個聲學模型適應教程http://cmusphinx.sourceforge.net/wiki/tutorialadapt –

如果我正在搜索的關鍵字不在標準的英語字典中，關鍵字發現仍然有效嗎？？ –

回答