random-forest

-2熱度

1回答

我在R中有一個數據集（csv文件），其中包含以下變量： - date（m/d/y） - 機器編號（例如「XTR004」） - Failure ，0或1） - 屬性1（INT） - 屬性2（INT） - 屬性3（INT） enter image description here 我有6個月的數據。每天創建一個日誌（1行），顯示日期，機器編號，機器是否失敗以及應與失敗相關的3個屬性。當機器發生故障（故

0熱度

1回答

使用1條記錄爲來自用戶輸入的預測創建虛擬變量

我正在嘗試創建一個用於預測工作薪水的Web應用程序。我已經在我的電腦上離線訓練了我的模型，現在正在嘗試使Flask應用根據用戶輸入做出預測。 Training script: https://github.com/datomnurdin/webscraping-indeed/blob/master/analyzer.ipynb Model: https://github.com/datomnu

1熱度

2回答

在Sklearn中爲RandomForest分散連續變量

我想使用隨機森林進行基於吉尼指數的特徵選擇。我的數據集混合了數字（連續）和分類（字符串）數據。這是該數據集的例子 VAR1 VAR2 198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db 我知道樹木適用於離散數據（分類），但確實隨機森林在Sklearn需要持續的數值數據先離散化還是可以處理？對於分類字符串變量我用下面的與零和一

1熱度

1回答

隨機森林混合分類，數字和「不需要」的變量，其中包括缺失值

我想在R中使用隨機森林包我的數據集，其中包括分類和數值變量以及一些「不需要的coloumns」（我不想將其包括在我的預測變量中）。此外，我的一些理想變量（應該被用作預測變量）缺失。我該如何處理？

0熱度

1回答

時間序列迴歸 - RandomForest

道歉的愚蠢問題 - 總計n00b在這裏。比方說，我有以下數據集。 date,site,category,locale,type,rank,sessions,logins 01/01/2017,google.com,search,US,free,1,3393093,50000 01/01/2017,google.com,overall,US,free,1,3393093,50000 01/0

0熱度

2回答

分類任務中的所有二元預測變量

我正在使用R執行我的分析，我將執行四種算法。 1. RF 2. Log Reg 3. SVM 4. LDA 我有50個預測變量和1個目標變量。我所有的預測變量和目標變量都只有二進制數字0和1。我有以下問題： Should I convert them all into factors? Converting them into factors, and applying RF alg

1熱度

1回答

R中的隨機森林算法

如何查看R中randomForest的算法？我有嘗試： library(randomForest) radomForest 但產量從來就得到的是： function (x, ...) UseMethod("randomForest") <environment: namespace:randomForest> 謝謝！

3熱度

1回答

我r平方得分就要負但我的精確度得分使用k重交叉驗證即將約92％

對於下面的代碼，我的r平方分數出來爲負，但我的精度分數使用K-雙倍交叉驗證即將達到92％。這可能怎麼樣？我使用隨機森林迴歸算法來預測一些數據。該數據集的鏈接在下面的鏈接中給出： https://www.kaggle.com/ludobenistant/hr-analytics import numpy as np import pandas as pd from sklearn.preproc

0熱度

1回答

隨機森林中的目標和獨立變量（Python）

早上好Stackoverflow社區！我想用隨機森林算法分析「House Sales in King County」。到目前爲止，我設法加載數據，準備數據 - 但我很努力選擇正確的目標和自變量。我的目標是，從數據集中選擇所有變量作爲輸入變量，目標變量應該是價格。我的代碼（見下文）現在可以正常工作，但甚至沒有接近我的目標（通過不同的變量預測價格）。我嘗試了幾種不同的方法 - 但一切都以錯誤結束

-1熱度

1回答

使用sklearn在隨機森林中自動超參數調整？

是否有一種使用GridSearch自動調整隨機森林分類器的方法。我們沒有提供這些值，而是有任何方法可以找到最佳的最佳參數值。 rfc = RandomForestClassifier(n_jobs=-1, max_features='sqrt', oob_score = True) # Use a grid over parameters of interest param_