2013-06-11 102 views
0

我遇到了this example,其中涉及完成測試數據集的面部。這裏,max_features的值32傳遞給ExtraTreesRegressor()函數。我瞭解到構建的決策樹會從輸入數據集中選擇隨機特徵。對於上述鏈接的示例,圖像用作列車和測試數據集。 This wiki page描述了各種類型的圖像特徵。現在我無法瞭解哪些功能劑量sklearn.ensemble.ExtraTreeRegressor尋找或提取作爲輸入提供的圖像數據集來構建隨機森林。另外,如何確定32的值對於max_features是最佳值。請幫我解決一下這個。Scikit的ExtraTreeRegressor考慮的功能學習構建隨機森林

回答

5

隨機森林不做特徵提取。他們使用給定的數據集中的特徵,在這個例子中,這些特徵只是來自Olivetti faces數據集的像素強度。

max_features參數爲ExtraTreesRegressor決定了「查找最佳拆分時要考慮的功能數量」(在森林使用的decision tree learning algorithm內)。

值32可能是憑經驗確定的。

5

這裏使用的特徵是原始像素值。由於數據集中的圖像是一致的,而且非常相似,這似乎足以完成任務。

2

正如其他人所說:在這個樸素的例子中沒有特徵提取:額外的樹只是使用原始像素作爲特徵。

在更真實的計算機視覺設置中,執行手動調整特徵提取很可能會導致更有趣的模型。要提取的功能類型取決於您要實現的計算機視覺任務。閱讀OpenCV庫中的文獻或示例以瞭解計算機視覺領域的最新技術(將神經網絡表示學習放在一邊,作爲現在的最新研究成果)。

該參數的32值可以隨機搜索。以主分支中的示例爲例:

http://scikit-learn.org/dev/auto_examples/randomized_search.html#example-randomized-search-py