2017-09-24 338 views
0

首先,我將大致說明我正在嘗試做什麼並徵求建議。然後,我會解釋我目前的方法,並要求我目前的問題的答案。在mp3中自動搜索和剪切一個音頻文件的每個語音文字

問題

我誰在講英語的人的MP3文件是播客的一個故事。我想將它分成大致對應於單詞的片段。 (我會手動完成,但是我們正在談論幾小時的數據,我不得不削減或分開)。

如果您有關於如何自動執行此操作的建議,我很樂意聽到它。

當前的方法

我只能無畏手工切割。

回答

1

那麼,首先你的問題與MP3或任何編解碼器沒有任何關係。要做任何有意義的處理,您必須將其轉換爲常規PCM流。 FFmpeg非常適合這一點,但還有很多其他的MP3工具。

接下來,我建議查看語音識別庫。將其中一個剝離到其裸露的組件中可能會給您帶來單詞界限。

這個問題並不像在音頻中尋找更安靜的點並進行切割那麼簡單。大多數人在說話時會持續呼吸併發出聲音,用清晰的聲音控制氣流和聲音輸出。專業人士尤其如此。你需要知道正在講話內容的東西,這就是爲什麼我認爲語音識別庫可能是一個開始的好地方。

相關問題