1
我是計算機視覺新手,現在我正在做一些關於物體檢測的研究。我讀過關於更快的RCNN和RFCN的論文,也讀過YOLO。看來最大的問題是速度?他們都只使用圖像數據數據。是否有任何結合文本和圖像數據的模型?這意味着當訓練數據很小時,我們可以使用文本中的信息來幫助檢測。例如,當訓練數據很小時,模型不能清楚地告訴狗和貓,但是模型可以告訴該對象附近有骨骼,並且該模型從文本中獲得一些信息,骨骼附近的對象最有可能是狗,因此模型現在可以告訴對象是什麼。這種算法是否存在?我沒有找到他們,希望你能幫助我。非常感謝。今天的物體檢測有什麼障礙?