如何在更快的R-CNN中訓練RPN？

我想了解更快的rcnn區域提案網絡。我明白它在做什麼，但我仍然不明白訓練的準確性如何，特別是細節。

假設我們使用VGG16的最後一層形狀爲14x14x512（在maxpool之前和228x228圖像之前）以及k = 9個不同的錨點。在推理時，我想預測9 * 2類標籤和9 * 4邊界框座標。我的中間層是一個512維向量。（圖像顯示256從ZF網絡）

在紙他們寫

「我們隨機取樣256個錨的圖像中以計算小批量，其中被採樣的損失功能正面和負面錨點的比例高達1：1「

這是我不確定的部分。 這是否意味着對於每個9（k）錨類型中的每一個，特定的分類器和迴歸器都是使用僅包含該類型的正錨和負錨的minibatches進行訓練的？

這樣我基本上在中間層訓練k個不同的網絡共享權重？因此，每個小批次將由訓練數據x = conv特徵映射的3x3x512滑動窗口和y =該特定錨點類型的基礎事實組成。而在推論時，我把它們放在一起。

我感謝您的幫助。

2017-07-27 Pepe

不完全。據我所知，RPN預測每個特徵映射的WHk邊界框，然後按照1：1的標準對256個隨機採樣，並且這些被用作該特定小批量的損失函數的計算的一部分。你仍然只訓練一個網絡，而不是k，因爲256個隨機樣本沒有任何特定類型。

聲明：我只在一個月前開始學習CNN，所以我可能不明白我的理解。

2017-08-03 08:23:14 SamShady

回答