在視頻文件中檢測週期，其中人物說話

我忙了一些視頻文件做大量的手工勞動，我在想，如果有一種方法，我可以更容易：在視頻文件中檢測週期，其中人物說話

我想什麼do是拍攝一個視頻文件（例如，硅谷的一集），並檢測某個角色（即Erlich Bachman）說話的部分。我不太清楚如何去做這件事，但這肯定會讓我的工作變得更容易。

我的猜測是這樣的：用Erlich的聲音的音頻文件訓練一些特殊類型的神經網絡，然後使用ffmpeg對視頻文件的一部分進行採樣，通過nnet運行採樣，如果輸出是積極的，可以進行更精細的搜索以找到對話的確切開始/結束點。

2017-05-03 mike

我想你可以使用一個LSTM，並且只是一個接一個地提供音頻幀（或任何你所說的）。你應該而不是只用Elrich的聲音的音頻文件來訓練它。實際上，您應該給它幾集作爲輸入，每當Elrich說話時，您將所需輸出設置爲1，無論何時他/她不在，您將所需輸出設置爲0。經過訓練後，LSTM將輸出一個介於0-1之間的值;價值越高，Elrich講話的變化就越高。

但請記住，您需要一些體面的訓練集才能真正具有良好的神經網絡。加上花在開發上的時間和精力可能會超過你在Elrich自己發言時花費在搜索零件上的時間。所以看看一些API的：

This看起來像你可能想要使用的東西。 你應該谷歌揚聲器識別，你會發現你需要什麼。

來源

2017-05-03 19:37:12

感謝您的回覆！說話人識別的鏈接非常有用。 – mike

在視頻文件中檢測週期，其中人物說話

回答

相關問題