imputation

    2熱度

    2回答

    有趣的是,我在計算器和其他網站上看到了很多不同的答案: 在處理我的訓練數據集時,我使用決策樹模型來推算某列的缺失值。所以這是我的問題。使用所有可用數據(訓練&測試)來製作插補模型(而不是預測)還是公平的?或者在做這些工作時只能觸摸訓練集?另外,一旦我開始在我的測試集上工作,我是否必須只使用測試集數據,使用我的訓練集中製作的相同插補模型進行插值,還是可以使用所有可用數據重新訓練我的插補模型? 只要我

    0熱度

    3回答

    我試圖尋找一個類似的問題,但找不到一個。如果你這樣做,請讓我知道! 我一直在做一個項目尋找糧食主食 這裏是我的數據集的一個子集: nutrient.component. grain nutrients 1 Beta-carotene (μg) White Rice 0.00 2 Beta-carotene (μg) Brown Rice NA 3 Calci

    2熱度

    1回答

    我有一個缺失數據的數據庫。我需要推算數據(我使用鼠標),然後基於原始列(使用推算數據)創建新列。正是這些新的列需要我進行統計分析。 具體來說,我的參與者用7點Likert量表填寫了幾個問卷。有些人沒有回答所有問題。我需要估算值,然後對這些值進行求和,並根據這個總和獲得這個新值,以便進行統計分析,根據這個總和將參與者分成「輕度,中度,高度」並將其用於統計分析。 我有什麼依據我想這個答案計算器做: P

    2熱度

    1回答

    創建指標列我有熊貓一個非常簡單的數據幀, testdf = [{'name' : 'id1', 'W': np.NaN, 'L': 0, 'D':0}, {'name' : 'id2', 'W': 0, 'L': np.NaN, 'D':0}, {'name' : 'id3', 'W': np.NaN, 'L': 10, 'D':0}, {'name' :

    0熱度

    1回答

    我有一個數據集,其中包含數字和要素中的對象。另外,對象數據類型的某些功能缺少值。我創建了Imputer的修改版本(按照另一篇文章中的說明)來處理數字和類別數據類型的缺失值,但是當我應用到我的數據集時,它會返回AttributeError。我相信我在定義適應方法的定義時犯了一個愚蠢的錯誤,我感謝你的洞察力。這裏是我的代碼和錯誤: import os import pandas as pd imp

    1熱度

    1回答

    我想知道是否有人從統計軟件包知道R的時間序列可以幫助我。 我目前正在使用stat的ts函數生成時間序列。 我傳遞了ts函數的一個數據集(每年有3年的日期和數值),已經解析爲十進制日期的開始和結束日期以及頻率爲365. 但是,某些日期範圍缺失(例如,2016年4月30日至2017年1月2日的日期和值不見了)。 但是,當我查看或繪製時間序列時,我發現缺少的數據會自動填充值。 我不確定這些值是如何生成的

    0熱度

    1回答

    我想在我的數據集中填充丟失的數據,我的導師建議我在Python中使用Fancy Impute包,特別是MICE算法。 首先,當我讀到MICE的時候,很清楚,如果我的缺失數據不是隨機的(我懷疑這是因爲缺失數據更可能在特定的國家/年),這是一個糟糕的選擇。那麼有沒有人推薦一種不同的算法? (我的項目基於世界銀行性別統計數據)。 的技術問題: 我跑我的數據框驗證碼: filled = MICE().co

    0熱度

    1回答

    busan<-subset(influ_busan, select = c(CNT,temp_min,temp_diff,humid_mean,hpa_mean,rad_mean,wind_mean,o3)) new_busan<-mice(busan, seed=12345, n=5) lm_busan <- with(new_busan,lm(CNT~temp_min+temp_dif

    0熱度

    1回答

    我有一個數據框,裏面包含了我用老鼠輸入的數據。 我不完全理解我得到的輸出。 SSQ =平方和。但是,哪個平方和?剩餘的平方和?或總平方數 - 殘差平方和?我假設後者,但我不確定。 df1有意義 - 它是每個變量-1內的組數。 df2我不明白。我有473個變量,以及20個老鼠的推測。但即使是473 x 20也不等於下面第一列的500萬! 此外,eta2是指單向anova的結果,partial-eta

    0熱度

    1回答

    我正在學習使用Python進行機器學習,並瞭解我無法通過模型運行分類數據,並且必須先獲取假人。我的一些分類數據有空值(僅有2個特徵的一小部分)。當我轉換成傻瓜,然後看看我是否缺少值,它總是顯示沒有。我應該事先進行評估嗎?或者我會根據分類數據進行歸類?例如,如果該類別是男性/女性,我不想用最常見的替換空值。我看到,如果這個功能是收入的話,這將會是有意義的,我將會推測缺失的價值。收入是收入,而男性不是