2011-09-22 31 views
0

我試圖分析串聯的音頻和視覺功能。我的音頻語音功能是使用隱馬爾可夫模型工具包以100fps採樣的mel-frequency倒譜系數。我的視覺特徵來自我製作的脣部追蹤程序,採樣率爲29.97fps。上行採樣/內插視頻功能的簡單技術?

我知道我需要插入我的視覺特徵,以便採樣率也是100fps,但我無法找到一個很好的解釋或教程如何在線執行此操作。我發現的大部分幫助來自語音識別社區,它代表讀者假定插值知識,即大多數用簡單的「內插視覺特徵以便採樣率等於100fps」來覆蓋步驟。

任何人都可以讓我在正確的方向嗎?

萬分感謝

+0

這個問題可能更適合http://dsp.stackexchangecom,因爲它實際上是關於信號處理而不是編程*本身*。 –

回答

1

由於面部運動不低通之前,視頻捕捉過濾,最經典的DSP插值方法可能不適用。你也可以嘗試對你的特徵向量進行線性插值,從一組時間點到另一組時間點的集合。只需選擇2個最接近的視頻幀並插入以獲取更多數據點。如果您的面部追蹤算法測量面部運動的加速度,您也可以嘗試樣條插值。

+0

謝謝:-)我會試試你的建議:-) – skymonkey