0

我想在ImageNet數據的Tensorflow中使用預訓練的VGG16作爲對象本地化器。在他們的論文中,小組提到他們基本上是剝離softmax圖層,然後在4D/4000D fc圖層上進行邊界框迴歸。我不想在這裏做任何事情(滑動窗口,RCNN),只是得到一些平庸的結果。CNN對象本地化預處理?

我對此很陌生,我只是對本地化的預處理感到困惑。在這篇論文中,他們說他們將圖像縮放到最短的256個圖像,然後採用中央224×224的裁剪並在這個圖像上訓練。我已經查看了所有內容,找不到關於如何處理本地化數據的簡單說明。

問題:怎樣的人通常在這裏處理邊框...

  • 你使用類似的tf.sample_distorted_bounding_box命令,然後重新調整基礎上的形象?
  • 你只是重新縮放/裁剪圖像本身,然後插入邊界框與轉換尺度?在某些情況下,這不會導致負面的方塊座標嗎?
  • 如何處理每個圖像的多個對象?

    • 你是否從一開始就選擇一個邊界框,裁剪到那個,然後在這個裁剪上訓練?或者,你餵它的整個(居中裁剪)的圖像,然後嘗試預測一個或多個盒子不知何故?

  • 這樣做是否會推廣到檢測或分段(如MS-CoCo)挑戰,還是完全不同?

任何幫助...... 感謝

回答

0

本地化通常爲滑動窗口的交集,其中網絡標識要的對象的存在下進行。

推廣到多個對象工作原理是一樣的。

分割比較複雜。您可以在填滿對象的像素蒙版上訓練模型,並嘗試輸出相同大小的像素蒙版

+0

在管道中時是否發生這種滑動?只是通過拍攝不同作物的輸入圖像而滑動?或者它是否以某種方式構建在網絡架構? – KTF

+0

經過培訓。對於每個窗口,您都會讓網絡猜測是否存在,然後,在所有正面窗口的交集處,您將擁有邊界 – bold

+0

肯定窗口意味着您的網絡僅預測二進制是/否? – KTF