feature-selection

    -2熱度

    1回答

    我有一個任務需要使用計算機視覺來解決,但我無法弄清楚哪種特徵是理想的提取。我可以訓練一個可以做分類的CNN網絡,然後可以知道它使用了什麼樣的特徵,以及用什麼來區分A類和B類? 然後用openCV或類似的方法做同樣的事情嗎?

    0熱度

    1回答

    因此,目前我的訓練和測試集以669個功能開始,其中許多功能是分類的,並且需要進行一次性編碼。 經過一個熱點編碼兩個集合後,我發現訓練集具有附加功能。 我不太知道如何處理這一點,但我覺得我有三種選擇: 取下訓練這些功能設置這樣既投其所好 添加這些功能測試集和產生合成數據。 在我訓練模型之前,使用一些降維技術(PCA)並使用相同數量的組件進行訓練和測試。 任何反饋將不勝感激。

    5熱度

    1回答

    我正在使用Scikit-learn進行文本分類。我想計算每個屬性相對於(稀疏)文檔項矩陣中的類的信息增益。 信息增益定義爲H(Class) - H(Class | Attribute),其中H是熵。 使用weka,這可以通過InfoGainAttribute來完成。但我還沒有在scikit-learn中找到這個方法。 但是,信息增益上面的公式與互信息是相同的度量,它已經是suggested。這也匹

    -1熱度

    1回答

    我正在學習功能選擇。 我發現了this,並看到許多內核檢查相關係數矩陣。 (在上面的鏈接中,他們介紹了3種特徵選擇方法,其中第一種是包括相關係數和卡方檢驗的濾波方法)。 爲什麼我們可以使用相關係數進行特徵選擇? 我認爲它只能表示2個變量之間的線性關係,所以它不能代表2個或更多個變量或非線性關係組合的影響。 所以我不知道相關係數是否適合特徵選擇。 爲什麼以及如何使用特徵選擇?

    0熱度

    1回答

    我試圖解決輸入特徵集大小約爲54的迴歸問題。 對單個預測變量'X1'使用OLS線性迴歸,我無法解釋Y中的變化 - 因此我試圖使用迴歸森林(即隨機森林迴歸)來查找其他重要特徵。後來發現選定的'X1'是最重要的特徵。 我的數據集有〜14500個條目。我已經將它按比例9:1分成了訓練和測試集。 我有以下問題: 試圖找到重要的功能時,我應該運行在整個數據集的迴歸森林,或只在訓練數據? 一旦發現重要特徵,應

    0熱度

    1回答

    我正在開發一個使用Scikit學習的SVM分類器。我有378個功能,我發現在適配我的分類器後,我的數據的最佳功能數量是41個。現在我想知道這41個功能究竟是什麼。排名每個功能的重要性,我用: selector.ranking_ 這給了我下面的輸出: array([294, 285, 265, 239, 345, 240, 231, 282, 284, 341, 344, 244, 224,

    2熱度

    1回答

    假設我有一個包含10個特徵和一個班級的數據集。現在,我想在這些特徵之間構建貝葉斯信念網絡。我將如何能夠在java中做到這一點? 有沒有API或機器學習庫? 任何提示或任何起點將不勝感激。

    -2熱度

    1回答

    當使用機器學習中的功能並以矩陣表示它們時,推薦的方法是將每天的小時和星期幾表示爲值預測模型的功能? 對於所有小時值和小時值1使用0表示將這些屬性表示爲特徵的首選方式?一週中的哪一天都一樣? 感謝

    0熱度

    2回答

    在scikit-learn中運行特徵選擇後,我想公開相關變量,向我顯示從方法中選擇的變量,它怎麼可能?命令X.shape只顯示變量的數量,我想在功能選擇後看到變量的名稱。 from sklearn.datasets import load_iris from sklearn.feature_selection import SelectKBest from sklearn.feature_se

    0熱度

    1回答

    我對WEKA相當陌生,我有一個數據集111 cases與109 attributes。我正在使用WEKA中的功能選項卡CfsSubsetEval和BestFirst search method以供feature selection使用。我正在使用leave-one-out cross-validation。 所以,多少特徵不WEKA挑或什麼是停止標準爲特徵的數目這個方法選擇在交叉驗證的各步驟 謝謝