5

根據最終的卷積層激活函數調整區域提議時,發生了什麼數學問題? 在關於使用CNN進行對象檢測的following教程中提到了快速RCNN。他們在這裏提到了ROI層和發生了什麼。但是,我不明白在將區域提案的大小調整爲每個單元格中的最終conv.layer激活時,數學會發生什麼情況。fast rcnn中的ROI層是什麼?

回答

4

地區的感興趣(ROI)池:

它是一種類型,其執行最大非均勻尺寸和輸入(這裏,convnet特徵映射)彙集池層的產生固定大小的小特徵地圖(比如說7x7)。此固定大小的選擇是網絡超參數,並且是預定義的。

做這樣一個彙集的主要目的是加快訓練和測試時間,並且從頭至尾(以聯合方式)訓練整個系統。

這是因爲使用該池層訓練&測試時間比原來的(香草)R-CNN架構更快,因此名稱爲Fast R-CNN。

簡單的例子(從Region of interest pooling explained by deepsense.io):

Visualization of RoI Pooling

+0

這裏的區域提議意味着圖像或圖像部分區域的形狀,然後將像素與最大濾鏡值相乘? –

5

ROI(感興趣區域)層被引入Fast R-CNN中,並且是在Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition中引入的空間金字塔池層的特例。由於完全連接圖層中的大小限制,ROI層的主要功能是將具有任意大小的整形輸入轉換爲固定長度的輸出。

如何ROI層的工作原理是顯示出低於:

enter image description here

在該圖像,具有任意大小的輸入圖像被饋送到該層,其具有3個不同的窗口:4×4(藍色),2×2(綠色),1x1(灰色)以產生固定尺寸分別爲16 x F,4 x F和1 x F的輸出,F是濾波器的數量。然後,這些輸出連接成一個矢量,以饋送到完全連接層。

+0

你能否詳細說明一點 「因爲在完全連接層大小限制的」。由於我們將像素值(標量)提供給FC層的神經元,爲什麼它關係到輸入矩陣的大小? – deadcode