2017-05-03 47 views
0

我忙了一些視頻文件做大量的手工勞動,我在想,如果有一種方法,我可以更容易:在視頻文件中檢測週期,其中人物說話

我想什麼do是拍攝一個視頻文件(例如,硅谷的一集),並檢測某個角色(即Erlich Bachman)說話的部分。我不太清楚如何去做這件事,但這肯定會讓我的工作變得更容易。

我的猜測是這樣的:用Erlich的聲音的音頻文件訓練一些特殊類型的神經網絡,然後使用ffmpeg對視頻文件的一部分進行採樣,通過nnet運行採樣,如果輸出是積極的,可以進行更精細的搜索以找到對話的確切開始/結束點。

回答

1

我想你可以使用一個LSTM,並且只是一個接一個地提供音頻幀(或任何你所說的)。你應該而不是只用Elrich的聲音的音頻文件來訓練它。實際上,您應該給它幾集作爲輸入,每當Elrich說話時,您將所需輸出設置爲1,無論何時他/她不在,您將所需輸出設置爲0。經過訓練後,LSTM將輸出一個介於0-1之間的值;價值越高,Elrich講話的變化就越高。

但請記住,您需要一些體面的訓練集才能真正具有良好的神經網絡。加上花在開發上的時間和精力可能會超過你在Elrich自己發言時花費在搜索零件上的時間。所以看看一些API的:

This看起來像你可能想要使用的東西。 你應該谷歌揚聲器識別,你會發現你需要什麼。

+0

感謝您的回覆!說話人識別的鏈接非常有用。 – mike