CNN對象本地化預處理？

我想在ImageNet數據的Tensorflow中使用預訓練的VGG16作爲對象本地化器。在他們的論文中，小組提到他們基本上是剝離softmax圖層，然後在4D/4000D fc圖層上進行邊界框迴歸。我不想在這裏做任何事情（滑動窗口，RCNN），只是得到一些平庸的結果。CNN對象本地化預處理？

我對此很陌生，我只是對本地化的預處理感到困惑。在這篇論文中，他們說他們將圖像縮放到最短的256個圖像，然後採用中央224×224的裁剪並在這個圖像上訓練。我已經查看了所有內容，找不到關於如何處理本地化數據的簡單說明。

問題：怎樣的人通常在這裏處理邊框...

你使用類似的tf.sample_distorted_bounding_box命令，然後重新調整基礎上的形象？
你只是重新縮放/裁剪圖像本身，然後插入邊界框與轉換尺度？在某些情況下，這不會導致負面的方塊座標嗎？
如何處理每個圖像的多個對象？
- 你是否從一開始就選擇一個邊界框，裁剪到那個，然後在這個裁剪上訓練？或者，你餵它的整個（居中裁剪）的圖像，然後嘗試預測一個或多個盒子不知何故？
這樣做是否會推廣到檢測或分段（如MS-CoCo）挑戰，還是完全不同？

任何幫助...... 感謝

2017-01-12 KTF

本地化通常爲滑動窗口的交集，其中網絡標識要的對象的存在下進行。

推廣到多個對象工作原理是一樣的。

分割比較複雜。您可以在填滿對象的像素蒙版上訓練模型，並嘗試輸出相同大小的像素蒙版

2017-01-12 11:15:38 bold

在管道中時是否發生這種滑動？只是通過拍攝不同作物的輸入圖像而滑動？或者它是否以某種方式構建在網絡架構？ – KTF

經過培訓。對於每個窗口，您都會讓網絡猜測是否存在，然後，在所有正面窗口的交集處，您將擁有邊界 – bold

肯定窗口意味着您的網絡僅預測二進制是/否？ – KTF

回答