我正在使用OpenCV實現Bag-of-Words圖像分類器。最初我已經測試了在SURF關鍵點中提取的SURF描述符。我聽說密集SIFT(或PHOW)描述符可以爲我的目的更好地工作,所以我也嘗試了它們。密集SIFT比SIFT更適合單詞袋?
令我驚訝的是,他們表現更差,實際上差近10倍。我可能做錯了什麼?我使用OpenCV中的DenseFeatureDetector獲取關鍵點。我從9個圖層中提取每個圖像約5000個描述符並將它們聚類爲500個簇。
我應該試試VLFeat庫中的PHOW描述符嗎?另外,我不能在OpenCV的SVM實現中使用卡方內核,這在許多論文中都是推薦的。這對分類器質量至關重要,我應該嘗試另一個庫嗎?
另一個問題是規模不變性,我懷疑它可能受密集特徵提取的影響。我對嗎?