2016-08-17 120 views
0

我是計算機視覺新手,開始學習計算機視覺社區中一個非常流行的話題,即SIFT。但我對一個實現細節感到困惑:SIFT中的最終描述符

在檢測到關鍵點之後,我們必須構造4乘4局部直方圖,作爲最終的SIFT描述符,對嗎?每個局部直方圖包含4乘4像素的局部鄰域的方向。所以總的來說,我們有16次16等於256像素,它們位於關鍵點附近的一個鄰域內。所以這個鄰域是16乘16像素的網格。

但是這個鄰域如何確定細節?鄰居是否按照關鍵點的方向旋轉?根據檢測關鍵點的比例,此256像素鄰域內的像素是否分開?

感謝您的幫助!

回答

0

首先,SIFT關鍵點以多個比例提取。描述符使用相應的比例進行計算。所以,我不會說'像素',因爲它可能不明確。對於你的問題,我想引用original paper(6.1節):

首先,圖像梯度幅度 和方向都是圍繞關鍵點的位置進行採樣,使用 關鍵點的規模,選擇高斯的水平模糊的圖像。

爲了實現定向 不變性,描述符的座標和梯度方向相對於關鍵點方向相對於 旋轉。

σ等於描述符窗口寬度的一半的高斯加權函數 用於爲每個樣本點的大小分配權重。

我希望這能回答你的問題。請不要猶豫,詢問是否有不清楚的地方。

相關問題