feature-engineering

    1熱度

    1回答

    我希望能夠獲取字典(記錄)的列表,其中某些列的值列表爲單元格的值。下面是一個例子 [{'fruit': 'apple', 'age': 27}, {'fruit':['apple', 'banana'], 'age': 32}] 我怎麼能借此輸入並對其進行功能散列(在我的數據集我有成千上萬的列)。目前我正在使用一種熱門編碼,但這似乎消耗了很多內存(比我的系統上的更多)。 我試圖把我的數據集作爲

    1熱度

    1回答

    我想從一個連續變量改變我的特徵「年齡」,年齡範圍爲二元分類的分類變量,像這樣的最小方差的塊大小: df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90']) 不過我想要以最佳方式分割它,以便可以最有效地分類數據。即年齡範圍內班級的差異最小化,而不是過度擬合。 是否

    2熱度

    1回答

    在隨機森林的Mllib版本中,有可能使用參數categoricalFeaturesInfo 指定具有名義特徵(數值但仍爲分類變量)的列什麼是ML隨機森林?在用戶指南there is an example使用VectorIndexer的類別特徵轉換矢量爲好,但它的寫有「自動識別類別特徵,並對其進行索引」 In the other discussion of the same problem我發現數值

    -2熱度

    1回答

    當使用機器學習中的功能並以矩陣表示它們時,推薦的方法是將每天的小時和星期幾表示爲值預測模型的功能? 對於所有小時值和小時值1使用0表示將這些屬性表示爲特徵的首選方式?一週中的哪一天都一樣? 感謝

    1熱度

    1回答

    因此,我有兩組功能,我希望裝箱(分類),然後組合以創建新功能。這與將地圖上的座標分類成網格無異。 問題是功能不是均勻分佈的,我想在binning時使用分位數(如pandas.qcut())在這兩個功能/座標上。 有沒有比兩個功能上的更好的方法,然後連接結果標籤?

    0熱度

    1回答

    我在sklearn中訓練了一個邏輯迴歸分類器。我的基本特徵文件有65個特徵,現在我通過考慮二次組合(使用PolynomialFeatures())將它們外推到1000。然後我通過Select-K-Best()方法將它們還原爲100。 但是,一旦我訓練了我的模型並獲得了新的test_file,它將只具有65個基本特徵,但我的模型預計會有100個特徵。 所以,我怎麼能應用在我的測試集選擇-K-最佳()