我正在使用迴歸模型來預測120個屬性的數值。這些屬性中的7個屬於Categorical,但最大的類別具有大約90,000個唯一值。我正在訓練大約100萬行數據。亞馬遜機器學習與分類屬性 - 限制
但是,當我查看數據源摘要中的分類屬性時,可以看到它們顯示最多5000個唯一值。這是AWS機器學習實施的某種限制,會影響我的模型的準確性,還是僅僅是彙總顯示的限制?
另外,我還強調了最頻繁的類別結果,其中空白顯示爲最常用的值。 (這可能是因爲我的CSV包含引號,因此是有效值)AWS ML是否忽略分類元素的空白條目?或者我應該使用UUID /隨機字符串填充缺失的分類值,以便共用的「空白」值不會使預測發生偏差。
我知道某些ML模型會爲新預測輸入新的(以前未見過的訓練)分類值時保留一個備用神經元。 AWS Machine Learning就是這種情況嗎?
我是ML新手,很抱歉如果我的問題很蠢,或者我的方法/假設是錯誤的。我在詢問之前掃描了AWS文檔。
感謝。
您正在使用大量的屬性,因此它顯然沒有用於屬性選擇的科學推理,並且我們已經將沒有*屬性選擇的所有屬性用於學習**。某些屬性可能對學習**意義不大,或者導致**反向學習**,也可能沒有獲取相關屬性。我可以看到0.5左右的相關係數非常低。即使在使用大量數據時,專家們也會錯過這方面的內容。使用PCA改善網絡,沒有備用神經元,**所有輸入數據收斂到輸出訓練**。 – SACn