我想做線性迴歸分析。我有多個功能。某些功能對數據中的某些項目具有未分配(空)值。因爲對於某些項目,某些特定的特徵值在數據源中未被使用。爲了更清楚起見,我提供了示例: 在迴歸(機器學習)中處理未分配(空)的要素值?
正如您所看到的,某些項目缺少某些功能的值。現在,我只是將它分配給'空',但是在對數據進行線性迴歸分析時如何處理這些值?我不希望這個未分配的值錯誤地影響迴歸模型。不幸的是,我無法擺脫未分配特徵值呈現的項目。我打算使用Python進行迴歸。
我想做線性迴歸分析。我有多個功能。某些功能對數據中的某些項目具有未分配(空)值。因爲對於某些項目,某些特定的特徵值在數據源中未被使用。爲了更清楚起見,我提供了示例: 在迴歸(機器學習)中處理未分配(空)的要素值?
正如您所看到的,某些項目缺少某些功能的值。現在,我只是將它分配給'空',但是在對數據進行線性迴歸分析時如何處理這些值?我不希望這個未分配的值錯誤地影響迴歸模型。不幸的是,我無法擺脫未分配特徵值呈現的項目。我打算使用Python進行迴歸。
你需要忽略那些行 - 你已經說過你不能這樣做,並且這對於缺少值的數量並不是一個好主意 - 或者使用主動折扣這些項目的算法,這是填補受過教育的猜測的技術術語)缺失的數據。
我們可以給予的幫助有限,因爲您沒有給我們缺少數據所需的語義。您可以通過對您所擁有的數據使用您最喜歡的「最匹配」算法來計算一些缺失值。例如,你可以很好地從其他數據中推斷出對區域的猜測。
對於您的非線性離散項目(即區域),您可能希望將NULL保留爲單獨的區域。如果缺少足夠的條目,則無論如何你都可以獲得體面的模型。
一個簡單的插補是用每個NULL替換該特徵的平均值,但這隻適用於那些具有適當平均值的人(即而不是區)。
總體而言,我建議您搜索「精算缺失數據」的適當參考。由於我們不確定您的需求,所以我們無法幫助您解決這個問題,因此不在SO的範圍內。