feature-selection

    0熱度

    1回答

    我想選擇可用的最佳功能子集,以區分兩個要加入到我構建的統計框架中的類,其中功能不是獨立的。 看過機器學習中的功能選擇方法後,它似乎分爲三個不同的類別:過濾器,包裝器和嵌入式方法。過濾方法可以是:單變量或多變量。使用Filter(多變量)或包裝器方法確實有意義,因爲兩個 - 據我瞭解 - 尋找最佳子集,但是,因爲我沒有使用分類器,所以如何使用它? 是否有意義應用這樣的方法(例如遞歸功能 消除)到DT

    0熱度

    1回答

    我正在使用python 3.5與tensorflow 0.11。 我有一個包含大量特徵(> 5000)和相對較少數量的樣本(< 200)的數據集。我正在使用wrapper skflow函數DNNClassifier進行深度學習。 它似乎工作適用於分類任務,但我想從大量的功能中找到一些重要功能。 在內部,DNNClassifier似乎執行特徵選擇(或提取功能 )。有沒有辦法用tensorflow執行

    0熱度

    1回答

    我正嘗試使用rfeControl和rfe進行簡單的使用svm的功能選擇任務。輸入文件很小,有20個特徵,414個樣本。輸入可以在這裏找到[https://www.dropbox.com/sh/hj91gd06dbbyi1o/AABTHPuP4kI85onSqBiGH_ISa?dl=0]。 忽略警告,我不明白下面的錯誤是,因爲我明白當衡量指標== RMSE和我時,最大化的價值,但是,具有指標==準確

    4熱度

    1回答

    我試圖從300*299培訓矩陣中學習相關的功能,將它作爲我的測試數據並應用sequentialfs。我用下面的代碼: >> Md1=fitcdiscr(xtrain,ytrain); >> func = @(xtrain, ytrain, xtest, ytest) sum(ytest ~= predict(Md1,xtest)); >> learnt = sequentialfs(func,

    0熱度

    1回答

    我正在使用scikit-learn進行問題分類。我有這樣的代碼: print(features[0], '\n') vectorizer = TfidfVectorizer(sublinear_tf=True, max_df=0.5, stop_words='english') features = vectorizer.fit_transform(features)

    0熱度

    1回答

    您好,我有經過培訓和測試的數據。我正在嘗試使用sklearn的功能相關性Seelct K Best來選擇相關功能並在之後繪製條形圖。但是我得到這個錯誤: ValueError: could not convert string to float: B 但我開始覺得我有在我的數據集列這樣看這可能是問題: CancellationCode: A B C D 如果此列是導致問題我該如何解

    0熱度

    1回答

    我正在觀看這個着名的Intro to Stat Learning課程中的video關於在特徵選擇中進行交叉驗證的內容。 教授們說,在進行任何模型擬合和特徵選擇之前,我們應該形成褶皺。他們還表示,在每一次拆分中,我們最終都會得到一組不同的「最佳預測指標」。我的問題是,如果是這種情況,我們如何確定未來使用的總體最佳預測指標。換句話說,如果我有一組新的數據,我怎麼知道我應該使用哪些預測指標?

    9熱度

    4回答

    我想進行監督式學習。 直到現在我知道要做監督學習所有功能。 但是,我還想進行K最佳功能的實驗。 我閱讀了文檔,發現Scikit學到了SelectKBest方法。 不幸的是,我不知道如何尋找那些最好的功能後,創建新的數據框: 假設我想用5個最佳特性進行實驗: from sklearn.feature_selection import SelectKBest, f_classif select_k_

    0熱度

    1回答

    我已將Boruta應用於我的數據集,以確定特徵對於預測變量的重要性。然而,它無法確定幾個功能的重要性。他們被證明是暫時的。 Python中是否有任何TentativeRoughFix函數? R語言中存在TentativeRoughFix函數。如果有這樣的功能,任何人都可以引導我走向它。或者有關如何改變python中「暫定」到「重要」或「不重要」的變量的重要性的任何建議將非常感謝。

    -2熱度

    1回答

    對文本文檔的特徵空間進行建模非常容易。例如,我可以將文本中的每個單詞(訓練數據)作爲特徵。 如果一個特定的詞(例如「狗」)在(分類的)訓練例子(例如被分類爲垃圾郵件)遇到多次,那麼我可以用這個詞來分類新的數據。 如何模擬我的功能,如果它們不僅僅是單詞? 在我的具體情況下,我有像名字,年齡和家庭大小的功能。 我不認爲這是在我的特徵向量中爲每個可能的年齡創建條目的正確方法。 如果我假設人類不晚於100