0
對於視頻字幕,我們需要將視頻幀輸入到Recurrent Neural Network中。如果我們提供了視頻,提取幀的標準標準是什麼,例如幀採樣率和圖像分辨率要求。從視頻中提取幀的標準爲視頻字幕
我也想知道,當我們做視頻字幕時,我們是否首先提取視頻的所有幀,將它們保存爲輸入,或者我們在處理它們的同時提取幀。
對於視頻字幕,我們需要將視頻幀輸入到Recurrent Neural Network中。如果我們提供了視頻,提取幀的標準標準是什麼,例如幀採樣率和圖像分辨率要求。從視頻中提取幀的標準爲視頻字幕
我也想知道,當我們做視頻字幕時,我們是否首先提取視頻的所有幀,將它們保存爲輸入,或者我們在處理它們的同時提取幀。
從你的問題來看,它並不完全清楚,所以它可能值得一提的是,字幕和字幕通常存儲在與視頻本身不同的文件中,即它們不會直接添加到視頻流中。還值得注意的是,大多數視頻容器(例如MP4文件)將具有單獨的視頻和音頻軌道。
根據您要添加的字幕的類型,該方法可能會有所不同 - 例如,如果標題是簡單的描述性註釋,那麼它們通常會手動添加以便在編輯器選擇的視頻的任意位置呈現。
如果標題要提供演講稿,那麼他們顯然必須與音頻和視頻流保持一致,並且通常會從音頻流中生成並使用其時間戳。
有在不同的地區和不同的部署字幕多種不同的標準,但一些最常見的有:
一般情況下,無論格式,將會有一種機制將標題(如果需要)與視頻的任何幀相關聯 - 即允許播放器將特定視頻幀與特定標題相鏈接的時間碼。