我忙了一些視頻文件做大量的手工勞動,我在想,如果有一種方法,我可以更容易:在視頻文件中檢測週期,其中人物說話
我想什麼do是拍攝一個視頻文件(例如,硅谷的一集),並檢測某個角色(即Erlich Bachman)說話的部分。我不太清楚如何去做這件事,但這肯定會讓我的工作變得更容易。
我的猜測是這樣的:用Erlich的聲音的音頻文件訓練一些特殊類型的神經網絡,然後使用ffmpeg對視頻文件的一部分進行採樣,通過nnet運行採樣,如果輸出是積極的,可以進行更精細的搜索以找到對話的確切開始/結束點。
感謝您的回覆!說話人識別的鏈接非常有用。 – mike