我有一個大型的二手車表。 標題是這樣的:使用機器學習來預測二手車的價格
maker | model | year | kilometers | transmission | gas_type | price
我做了一個預測模型,這項工作是這樣的:每次我想知道一輛車的價格時,我通過品牌和型號過濾數據,然後我跑二次迴歸,以年和公里爲參數。
結果是確定的,但不適用於每輛車。
問題是,同一個製造商和型號有不同的「版本」。 (它與完整版本不同,不是簡單版本,或4WD或皮革座椅等)
如何識別差異?我可以使用某種聚類來識別具有相同型號和製造商的汽車之間的不同版本。
任何幫助將不勝感激
集羣會犯更多的錯誤。它會嘗試合併相似的模型。 –