2014-06-18 84 views
12

我有大約3000多個同一作者的音頻文件。我需要抄錄這些講座,筆者在這裏講述了一個特定的詞。在音頻文件中搜索特定口語詞

所以我需要一個軟件解決方案,它會自動找到所有文件的特定單詞說。這個詞的發音方式可能有所不同,因爲這些音頻文件已經用了15年。

免費/開源解決方案表示讚賞。

我試過搜索,並瞭解了獅身人面像。但是我無法將其設置爲用於我的項目。任何幫助是極大的讚賞。請

+0

嘿你是否能夠實現這一目標?如果有,請分享如何? github回購會很棒! –

回答

12

您可以使用CMUSphinx,這是一款開源語音識別引擎,支持關鍵字識別功能。

1)將音頻信號轉換成需要的格式 - 16kHz的16位單聲道文件:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav 

2)建立,並http://github.com/cmusphinx

3)安裝最新pocketsphinx和sphinxbase下載en-us generic acoustic model

4)運行檢測:

pocketsphinx_continuous -infile file.wav -hmm en-us -kws_threshold 1e-40 -keyphrase "what you need to detect" -time yes 

它會打印您檢測到的關鍵字及其時間。爲了獲得最佳檢測精度,您可以調整kws_threshold。

+0

感謝尼古拉的回答。由於這種聲學模型是通用的,我如何根據演講者已錄製的音頻文件製作聲學模型? –

+0

對於關鍵字識別,您不需要與揚聲器相關的模型,它不會顯着改進。如果你仍然想適應它,那麼有一個聲學模型適應教程http://cmusphinx.sourceforge.net/wiki/tutorialadapt –

+0

如果我正在搜索的關鍵字不在標準的英語字典中,關鍵字發現仍然有效嗎? ? –