feature-selection

    -2熱度

    1回答

    遠離Iris或Wine的常見數據集,假設我們有3個類的數據集,並且此數據是不可分的。如何以任何方式提高正確分類樣本的比例......例如從50%增加到80或90%?

    2熱度

    1回答

    我目前正在開發一個項目,在該項目中我必須爲構建預測模型做一些特徵選擇。我導致了一個名爲mRMRe的R軟件包。我只是試圖去做這個例子,但是卻無法讓它工作。這個例子可以在這裏找到 - http://www.inside-r.org/packages/cran/mRMRe/docs/mRMR.ensemble。 這裏是我的代碼 - data(cgps) data <- data.frame(targe

    0熱度

    1回答

    在節點上,對於分類要素,我正在嘗試使用全部(2^m -2)/ 2種可能的方法將m個不同的要素值分爲兩組。具有相同特徵值的所有樣本在考慮該特徵時會作爲一組移動到一起。 問題是,當m爲35(例如國家)時,我將不得不嘗試17萬億次拆分。 處理分類特徵的任何替代方法?

    5熱度

    1回答

    我正在使用自然語言處理進行短信挖掘。我用quanteda包生成文檔特徵矩陣(dfm)。現在我想用卡方檢驗進行特徵選擇。 我知道已經有很多人問這個問題了。但是,我找不到相關的代碼。 (答案只是給了一個簡短的概念,是這樣的:https://stats.stackexchange.com/questions/93101/how-can-i-perform-a-chi-square-test-to-do-

    0熱度

    1回答

    有人可以幫我用「sequentialfs」嗎? 我無法使用它與以下SVM功能。 'X'包含每個觀測的特徵,'y'包含每個觀測的類別。 SVMModel = fitcsvm(X,Y); predict(SVMModel, X); 當執行sequentialfs,會出現以下錯誤: 函數 'featureSelection' 生成以下錯誤: 太多輸入參數。 在這裏,我的代碼: fs = seque

    1熱度

    1回答

    python中實現的adaboost算法究竟如何爲每個要素分配要素重要性?我正在使用它來進行特徵選擇,並且我的模型在基於feature_importance_的值應用特徵選擇時表現更好。

    0熱度

    1回答

    我有一個機器學習問題,希望優化我的SVC估計器以及特徵選擇。 爲了優化SVC估計器,我基本上使用了docs中的代碼。現在我的問題是,我怎樣才能將這與recursive feature elimination cross validation (RCEV)?也就是說,對於每個估計量組合,我想要做RCEV來確定估計量和特徵的最佳組合。 我試圖解決從this thread,但它產生以下錯誤: Value

    1熱度

    1回答

    我在sklearn特徵選擇模塊中找到了用於特徵選擇的F_regression技術。我無法理解它使用的原理。 給出的描述是 - 單變量線性迴歸測試。 用於測試單個迴歸器的效果的快速線性模型,依次用於許多回歸器。 這是分三步完成的: 1.利益的迴歸者和數據被正交化與恆定迴歸。 2.計算數據與迴歸器之間的互相關。 3.將其轉換爲F值,然後轉換爲p值。 我無法理解這一點,請有人可以用通俗的話來解釋這一點。

    -2熱度

    1回答

    我有一個包含368個獨立變量的數據集,而且我目前使用隨機森林分類來確定哪些變量是解釋數據行爲時最重要的變量。我已經在Python中完成了這項工作,並且發現類似下面這樣的結果: [(0.3748, 'var38'), (0.1738, 'var15'), (0.0294, 'saldo_medio_var5_ult3'), (0.0281, 'saldo_medio_var5_hace3'),...

    1熱度

    1回答

    我是機器學習領域的新手。我參加了Udacity的「機器學習入門」課程。所以我知道使用sklearn和python來運行基本的分類器。但是他們在課程中教授的所有分類都是使用單一數據類型進行培訓的。 我有一個問題,其中我想分類代碼提交爲「乾淨」或「馬車」。 我有一個包含字符串數據(如人名)設備的功能集,分類數據(說「乾淨」與「車」),數字數據(如無,提交的)和時間戳數據(如提交的時間)。如何根據這三個