我是計算機視覺新手,開始學習計算機視覺社區中一個非常流行的話題,即SIFT。但我對一個實現細節感到困惑:SIFT中的最終描述符
在檢測到關鍵點之後,我們必須構造4乘4局部直方圖,作爲最終的SIFT描述符,對嗎?每個局部直方圖包含4乘4像素的局部鄰域的方向。所以總的來說,我們有16次16等於256像素,它們位於關鍵點附近的一個鄰域內。所以這個鄰域是16乘16像素的網格。
但是這個鄰域如何確定細節?鄰居是否按照關鍵點的方向旋轉?根據檢測關鍵點的比例,此256像素鄰域內的像素是否分開?
感謝您的幫助!