2017-03-27 40 views
1

我是計算機視覺新手,現在我正在做一些關於物體檢測的研究。我讀過關於更快的RCNN和RFCN的論文,也讀過YOLO。看來最大的問題是速度?他們都只使用圖像數據數據。是否有任何結合文本和圖像數據的模型?這意味着當訓練數據很小時,我們可以使用文本中的信息來幫助檢測。例如,當訓練數據很小時,模型不能清楚地告訴狗和貓,但是模型可以告訴該對象附近有骨骼,並且該模型從文本中獲得一些信息,骨骼附近的對象最有可能是狗,因此模型現在可以告訴對象是什麼。這種算法是否存在?我沒有找到他們,希望你能幫助我。非常感謝。今天的物體檢測有什麼障礙?

回答

0

看來你主要提到深度網絡對象檢測的研究。在深度網絡成功之前,研究人員正在尋求使用具有圖像特徵的文本來實現類似於您的想法的可能性。您可能需要參閱ACM多媒體和IEEE TMM的論文,尤其是2014年以前的論文。

問題是這些方法無法像僅使用圖像的最簡單的深度網絡那樣執行。有一些工作要結合圖像和文字,例如this paper。我相信至少有一些研究人員已經在研究這個問題。