random-forest

    0熱度

    1回答

    我已經訓練了一個非常小的數據集上的隨機森林分類器。只有一個功能'位置'與目標'相關性'。我的代碼是很短的,簡單,可以在這裏 https://github.com/sakshamyadav/ocm_test/blob/master/Untitled.ipynb 找到我想現在要做的,是這樣的:用「位置」 把列 輸入任何csv文件它通過我的訓練隨機森林算法,以確定其是相關,哪些不是(1或0) 刪除所有行

    -1熱度

    1回答

    我不明白「較小的max_feature減少隨機森林中的過度擬合」的部分嗎? 另外,隨機森林中的裝袋意味着什麼?

    2熱度

    1回答

    R中隨機森林分類器的「元素」是什麼? 爲什麼「元素」總是等於19,無論設置什麼數據,我使用的功能數量是多少? 例如,在我的[R工作室環境: 將R物體名稱             說明 rf_goodjunk                                      大randomForest.formula(19個元素,24.9 MB) rf_more              

    -1熱度

    1回答

    我有這樣的代碼: import pandas as pd from sklearn.ensemble import RandomForestClassifier df = pd.read_csv('musk_clean.csv') X=df.iloc[:,0:-1] y=df.iloc[:,-1] clf=RandomForestClassifier(1) clf.fit(X,y)

    0熱度

    1回答

    我有一個預測變量的隨機森林模型。這個變量不是一個分類類,而是一個從0到1的數字。在這種情況下,評估生成模型的準確性的最好方法是什麼? 我應該分割訓練和測試零件,然後簡單地計算測試類中預測值和觀察值之間的線性相關性嗎? 有沒有更優雅的解決方案?如果是的話哪個包實現了這個?

    0熱度

    2回答

    我對隨機森林有疑問。想象一下,我有關於用戶與物品交互的數據。項目數量很大,大約爲10 000個。我的隨機森林輸出應該是用戶可能與之交互的項目(如推薦系統)。對於任何用戶,我想使用描述用戶過去已與之進行交互的項目的功能。但是,將分類產品功能映射爲單熱編碼看起來效率非常低,因爲用戶最多隻能與幾百個項目進行交互,有時甚至可能只有5個。 您將如何去關於構建一個隨機森林時,其中一個輸入要素是一個具有〜100

    -2熱度

    2回答

    嗨,我正在使用隨機森林分類器來產生logerror。日誌錯誤包含= ve & -ve值。以不同的設置運行分類器後。我能夠獲得大約0.8的訓練測試分數,但測試分數總是負面的。爲什麼? 我應該使用abs(日誌錯誤)進行預測還是我的隨機森林選擇錯誤?

    -2熱度

    1回答

    如果我們在AdaBoost算法中使用決策樹作爲基本估計器,有什麼區別?

    0熱度

    1回答

    我試圖在scikit_learn中使用randomforestregressor()來模擬一些數據。處理完我的原始數據後,我應用於randomforestregressor()的數據如下。 以下只是我的數據的一小部分。實際上,大約有6000個數據。 請注意,第一列是我創建的包含所有數據的DataFrame'final_data'的datetimeindex。另外,第4欄中的數據是字符串。我只是通過

    0熱度

    1回答

    我正在爲二元分類問題構建一個隨機森林分類器。我的標籤都是數字。 print labels.unique() [1 0] print type(labels) <class 'pandas.core.series.Series'> print labels.shape (3000,) 但是,當我在擬合模型Gridsearchcv pipeline = Pipeline(ste