random-forest

1熱度

1回答

如何計算K摺疊交叉驗證的不平衡數據集的精度，召回率和f1得分以及python中的10倍

我有一個包含二元分類問題的不平衡數據集。我構建了隨機森林分類器並使用了10次k折交叉驗證褶皺。 kfold = model_selection.KFold(n_splits=10, random_state=42) model=RandomForestClassifier(n_estimators=50) 我被錄取結果 print("Accuracy: %.3f%% (%.3f%%)") %

0熱度

1回答

更改Random Forest代碼的數據集導致異常結果

我使用基於here的randomforest代碼。這（跳過來看看到底問題）： # Select the best split point for a dataset def get_split(dataset, n_features): class_values = list(set(row[-1] for row in dataset)) b_index, b_value

0熱度

1回答

用兩種不同的方式計算randomforest訓練集的AUC給我不同的結果？

我使用了兩種方法來計算randomForest上訓練集的AUC，但我得到了非常不同的結果。這兩種方法如下：計算車組的AUC的 `rf_p_train <- predict(rfmodel, type="prob",newdata = train)[,'yes'] rf_pr_train <- prediction(rf_p_train, train$y) r_auc_train[i] <- p

0熱度

1回答

比較python中RF模型的準確性

我想計算它的準確度（在測試數據集上）。該模式具有以下預測值： [0 1 0 1 1 1 1 0 1 0 1 0 1 1 0 0 0 1 0 1 0 1 0 0 0 1 1 0 0 0 0 0 0 0 1 1 0 1 1 1 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0] 我怎樣才能把它比作實際值（在這種情況下，B或M）在檢測數據得到其準確性。這對其他數據集值也應該是通

-1熱度

2回答

拆分數據集90,10，而不是n_folds

我使用隨機森林算法。我想使用下面的代碼。我不想通過n_folds來評估算法，我想將它分爲90％的火車和10％的測試。我改變了n_folds爲n_folds=1，並添加以下行： train, test = train_test_split(dataset1, test_size=0.1, random_state = 0) ###<----- df = dataset1.astype('str'

-5熱度

1回答

爲什麼下面的代碼不能得到n_fold = 1的值？

使用以下代碼時，n_fold必須是2或更多。我如何改變它可以與n_folds = 1一起工作？將其更改爲1時，對於n_folds = 2以及更多，它可以工作。有些東西似乎不起作用。對於n_folds = 1，有下列錯誤： Traceback (most recent call last): File "GX.py", line 266, in <module> scores

0熱度

1回答

預測使用sklearn的RandomForestRegressor

可能是一個非常愚蠢的問題，所以對我來說很容易，但在這裏我去。因此，這裏就是我的數據看起來像...... date,locale,category,site,alexa_rank,sessions,user_logins 20170110,US,1,google,1,500,5000 20170110,EU,1,google,2,400,2000 20170111,US,2,facebook

2熱度

1回答

如何處理Spark中最新的隨機森林中的分類特徵？

在隨機森林的Mllib版本中，有可能使用參數categoricalFeaturesInfo 指定具有名義特徵（數值但仍爲分類變量）的列什麼是ML隨機森林？在用戶指南there is an example使用VectorIndexer的類別特徵轉換矢量爲好，但它的寫有「自動識別類別特徵，並對其進行索引」 In the other discussion of the same problem我發現數值

0熱度

1回答

隨機森林使用pyspark.ml爲Dataframes

我想建立使用dataframes pyspark.ml庫（不mllib爲RDD）隨機森林分類。我是否必須使用文檔中給出的管道？我只是想建立一個簡單的模型， rf = RandomForestClassifier(labelCol = labs, featuresCol = rawdata) 我碰到下面的錯誤 Traceback (most recent call last): F

1熱度

4回答

R中的隨機森林混亂矩陣Caret

我有二進制YES/NO Class響應的數據。使用以下代碼來運行RF模型。我在獲取混淆矩陣結果時遇到了問題。 dataR <- read_excel("*:/*.xlsx") Train <- createDataPartition(dataR$Class, p=0.7, list=FALSE) training <- dataR[ Train, ] testing <- dataR[ -T