random-forest

    2熱度

    1回答

    我正在使用r-package randomForest,併成功製作了隨機森林模型和重要性圖。我正在處理一個二元對應和幾個分類預測器。 但是,我無法弄清楚如何爲我的分類變量製作偏依賴關係圖。我曾嘗試使用randomForest命令partialPLot。但我收到以下錯誤: > partialPlot(rf.5, rf.train.1, religion) Error in is.finite(x)

    1熱度

    1回答

    我使用下面的代碼來保存隨機森林模型。我正在使用cPickle來保存訓練有素的模型。當我看到新的數據時,我可以逐漸地訓練模型。 目前,列車集有大約2年的數據。有沒有一種方法可以在另外兩年的時間裏進行訓練,並且(種類)將其附加到現有的已保存模型上。 rf = RandomForestRegressor(n_estimators=100) print ("Trying to fit the Rando

    0熱度

    1回答

    我試圖使用隨機森林模型來根據身高,體重和兄弟姐妹數量來預測性別。我從一個包含數十個變量的大得多的數據集中獲得數據,但是我已經將它清理到了這個「乾淨」的data.frame中,省略了NA值,只有我關心的4個變量,最後一列是Gender 。 我試過擺弄代碼和到處搜索,但找不到具體的修復程序。 下面的代碼: ind <- sample(nrow(clean),0.8*nrow(clean)) trai

    0熱度

    1回答

    我使用weka(在java中)構建了一個隨機森林分類器。 我將一個序列化的分類器保存到磁盤。但是,序列化文件太大(大約100 MB)。此外,如果我對更多的實例進行了訓練,文件變得越來越大,所以我猜測序列化模型也會保存數據。 還有另一種方法來保存weka分類器嗎?而對於較小的輸出文件(通常我認爲大小應該僅取決於模型架構)。 我用下面來serilization,所有產生相同的文件大小: Weka.co

    0熱度

    1回答

    我正在嘗試通過應用預測建模(max kuhn)一書中的示例。這是創建校準曲線的一個例子。 我有點理解那條曲線的重點,即看實際事件的比例是否與預測事件相似。但我正在努力瞭解如何計算輸出的百分比列。 下面是代碼: library(AppliedPredictiveModeling) set.seed(975) simulatedTrain <- quadBoundaryFunc(500) sim

    1熱度

    2回答

    如何在R的同名包中輸出randomForest的樹圖功能?例如,我使用iris數據,並且想要繪製500個輸出束中的第一棵樹。我的代碼是 model <-randomForest(Species~.,data=iris,ntree=500)

    0熱度

    1回答

    我正在嘗試使用Isolation Forest sklearn implementation來訓練包含357個特徵的數據集。當max features變量設置爲1.0(默認值)時,我可以成功地訓練並獲得結果。 然而,當最大的特徵被設置爲2,它提供了以下錯誤: ValueError: Number of features of the model must match the input. Mod

    1熱度

    1回答

    我有21個班。我正在使用RandomForest。我想繪製ROC曲線,所以我在scikit中檢查了示例ROC with SVM 該示例使用SVM。支持向量機具有如下參數:概率和RF不具有的decision_function_shape。 那麼如何二值化RandomForest並繪製ROC? 謝謝 編輯 要創建假數據。所以有20個特徵和21個類別(每個類別3個樣本)。 df = pd.DataFra

    1熱度

    2回答

    我有其中一個類表示的所有觀測(210 000)的99.1%的二元分類問題。作爲處理不平衡數據的策略,我選擇抽樣技術。但我不知道該怎麼做:對我的大多數班級進行抽樣抽樣或對較少代表的班級進行抽樣。 如果有人有建議? 謝謝。 P.s. 我使用sklearn的隨機森林算法。

    0熱度

    1回答

    其他隨機森林工具具有限制特定分支上最大分割深度的「撥號」。例如, h2o.randomForest具有「max_depth」。 「ranger」的版本是什麼?