我不得不解決一個跟蹤參與視頻課堂討論的學生的頭部和肢體的類似問題。我們使用Thomas Brox(link,參見關於大位移光流的部分)的先進光流跟蹤技術進行了實驗。在我們的例子中,我們有近20TB的視頻可以通過,所以我們別無選擇,使用光流程代碼的C++和GPU實現;我想你會發現Matlab在進行視頻分析方面速度很慢。
光流向您返回詳細的運動矢量。然後,如果您只需在視頻的第一幀中標記嘴巴和下巴的原始邊界框,就可以按照這些像素的光流給出的軌跡進行跟蹤,這通常會給您一個很好的邊界框序列。不過,您可能會遇到必須清理的錯誤。您可以編寫一個Python腳本來播放邊界框序列,以便快速檢查錯誤。
我爲此編寫的代碼是用Python編寫的,它可能不容易適應您的數據設置或您的問題,但是您可以在我的部分中找到基於仿射變換的光流跟蹤代碼linked here '使用密集光流的物體跟蹤器'。
簡而言之,這對於視覺研究者來說是一個非常困難和煩人的問題。大多數人通過將他們的視頻一幀一幀地放到Mechanical Turk上「解決」它,並向他們分析每幀2美分的人力工作者付費。這會給你帶來相當不錯的結果(從Mechanical Turkers收集它們之後,你仍然需要清理它們),但是當你有很多視頻,並且你不能等待足夠的時間隨機分析Mechanical土耳其人。儘管如此,對於感興趣區域註釋,絕對沒有任何'開箱即用'的解決方案。您可能必須爲自動執行此操作的第三方軟件付出相當大的代價。我最好的猜測就是看看face.com會向你收費以及它的表現如何。儘管如此,對於這個或Mechanical Turk來說,請不要違反任何研究人員的保密協議。
來源
2012-03-11 01:40:53
ely
當你說「我在想我可以逐幀裁剪視頻」時,你的意思是說MATLAB會神奇地猜測嘴脣在哪裏?或者你會裁剪框架? – Daniyar 2012-03-02 20:48:00