2017-03-09 38 views
0

我正在使用迴歸模型來預測120個屬性的數值。這些屬性中的7個屬於Categorical,但最大的類別具有大約90,000個唯一值。我正在訓練大約100萬行數據。亞馬遜機器學習與分類屬性 - 限制

但是,當我查看數據源摘要中的分類屬性時,可以看到它們顯示最多5000個唯一值。這是AWS機器學習實施的某種限制,會影響我的模型的準確性,還是僅僅是彙總顯示的限制?

AWS Categorical Attribute Summary

另外,我還強調了最頻繁的類別結果,其中空白顯示爲最常用的值。 (這可能是因爲我的CSV包含引號,因此是有效值)AWS ML是否忽略分類元素的空白條目?或者我應該使用UUID /隨機字符串填充缺失的分類值,以便共用的「空白」值不會使預測發生偏差。

我知道某些ML模型會爲新預測輸入新的(以前未見過的訓練)分類值時保留一個備用神經元。 AWS Machine Learning就是這種情況嗎?

我是ML新手,很抱歉如果我的問題很蠢,或者我的方法/假設是錯誤的。我在詢問之前掃描了AWS文檔。

感謝。

+0

您正在使用大量的屬性,因此它顯然沒有用於屬性選擇的科學推理,並且我們已經將沒有*屬性選擇的所有屬性用於學習**。某些屬性可能對學習**意義不大,或者導致**反向學習**,也可能沒有獲取相關屬性。我可以看到0.5左右的相關係數非常低。即使在使用大量數據時,專家們也會錯過這方面的內容。使用PCA改善網絡,沒有備用神經元,**所有輸入數據收斂到輸出訓練**。 – SACn

回答

1

使用如此多的類別值通常沒什麼意義,只有最高值會被使用,因爲其他較小的類別沒有太多的預測能力。

這些類別與目標具有非常高的相關性,這有點可疑。但是如果模型與他們一起工作,我不會太擔心。您可以嘗試在沒有它們的情況下構建模型,以查看它是否有所作爲,但我不會在選擇功能時付出太多努力,並且在添加更多潛在功能時不會太努力。

+0

謝謝。是的,我希望用唯一「描述」這些類別的數字屬性替換分類屬性。我會比較兩個輸出。我只是想知道我在AWS中遇到了哪些限制..你知道AWS ML是否有使用最「有用的」5000分類值的硬性限制..或者你只是在談論機器學習如何與一般許多分類值。 – Sprooose