2017-07-27 62 views
1

Link to paper如何在更快的R-CNN中訓練RPN?

我想了解更快的rcnn區域提案網絡。我明白它在做什麼,但我仍然不明白訓練的準確性如何,特別是細節。

假設我們使用VGG16的最後一層形狀爲14x14x512(在maxpool之前和228x228圖像之前)以及k = 9個不同的錨點。在推理時,我想預測9 * 2類標籤和9 * 4邊界框座標。我的中間層是一個512維向量。 (圖像顯示256從ZF網絡) from the paper

在紙他們寫

「我們隨機取樣256個錨的圖像中以計算小批量,其中被採樣的損失 功能正面和負面 錨點的比例高達1:1「

這是我不確定的部分。 這是否意味着對於每個9(k)錨類型中的每一個,特定的分類器和迴歸器都是使用僅包含該類型的正錨和負錨的minibatches進行訓練的?

這樣我基本上在中間層訓練k個不同的網絡共享權重?因此,每個小批次將由訓練數據x = conv特徵映射的3x3x512滑動窗口和y =該特定錨點類型的基礎事實組成。 而在推論時,我把它們放在一起。

我感謝您的幫助。

回答

0

不完全。據我所知,RPN預測每個特徵映射的WHk邊界框,然後按照1:1的標準對256個隨機採樣,並且這些被用作該特定小批量的損失函數的計算的一部分。你仍然只訓練一個網絡,而不是k,因爲256個隨機樣本沒有任何特定類型。

聲明:我只在一個月前開始學習CNN,所以我可能不明白我的理解。