我試圖分析串聯的音頻和視覺功能。我的音頻語音功能是使用隱馬爾可夫模型工具包以100fps採樣的mel-frequency倒譜系數。我的視覺特徵來自我製作的脣部追蹤程序,採樣率爲29.97fps。上行採樣/內插視頻功能的簡單技術?
我知道我需要插入我的視覺特徵,以便採樣率也是100fps,但我無法找到一個很好的解釋或教程如何在線執行此操作。我發現的大部分幫助來自語音識別社區,它代表讀者假定插值知識,即大多數用簡單的「內插視覺特徵以便採樣率等於100fps」來覆蓋步驟。
任何人都可以讓我在正確的方向嗎?
萬分感謝
這個問題可能更適合http://dsp.stackexchangecom,因爲它實際上是關於信號處理而不是編程*本身*。 –