SIFT中的最終描述符

我是計算機視覺新手，開始學習計算機視覺社區中一個非常流行的話題，即SIFT。但我對一個實現細節感到困惑：SIFT中的最終描述符

在檢測到關鍵點之後，我們必須構造4乘4局部直方圖，作爲最終的SIFT描述符，對嗎？每個局部直方圖包含4乘4像素的局部鄰域的方向。所以總的來說，我們有16次16等於256像素，它們位於關鍵點附近的一個鄰域內。所以這個鄰域是16乘16像素的網格。

但是這個鄰域如何確定細節？鄰居是否按照關鍵點的方向旋轉？根據檢測關鍵點的比例，此256像素鄰域內的像素是否分開？

感謝您的幫助！

2016-08-17 J. Lin

首先，SIFT關鍵點以多個比例提取。描述符使用相應的比例進行計算。所以，我不會說'像素'，因爲它可能不明確。對於你的問題，我想引用original paper（6.1節）：

首先，圖像梯度幅度和方向都是圍繞關鍵點的位置進行採樣，使用關鍵點的規模，選擇高斯的水平模糊的圖像。

爲了實現定向不變性，描述符的座標和梯度方向相對於關鍵點方向相對於旋轉。

σ等於描述符窗口寬度的一半的高斯加權函數用於爲每個樣本點的大小分配權重。

我希望這能回答你的問題。請不要猶豫，詢問是否有不清楚的地方。

2016-08-18 06:32:36 gfkri

回答