2017-05-23 67 views
-1

我有一個大型的二手車表。 標題是這樣的:使用機器學習來預測二手車的價格

maker | model | year | kilometers | transmission | gas_type | price 

我做了一個預測模型,這項工作是這樣的:每次我想知道一輛車的價格時,我通過品牌和型號過濾數據,然後我跑二次迴歸,以年和公里爲參數。

結果是確定的,但不適用於每輛車。

問題是,同一個製造商和型號有不同的「版本」。 (它與完整版本不同,不是簡單版本,或4WD或皮革座椅等)

如何識別差異?我可以使用某種聚類來識別具有相同型號和製造商的汽車之間的不同版本。

任何幫助將不勝感激

+0

集羣會犯更多的錯誤。它會嘗試合併相似的模型。 –

回答

0

這不是一個聚類問題,只是一個子模型特徵。此外,您可能還想區分不同型號(標準版,豪華版,兩廂車等)與獨立於模型的功能(4WD,真皮座椅,高級音響系統,天窗等)之間的區別。子模型可能是單個特徵(文本列),而選項可能是單個特徵(布爾列)。

更新後OP澄清

我看到:這些功能是輸出,不輸入

是的,你可以使用聚類。但是,這可能會或可能不會識別子模型(您的「版本」)。如果只聚類具有相似用途(千米)和所有其他特徵相等的觀測數據,則會發現有些有用的聚類。但是,這隻適用於版本是剩餘價格變化的主要因素。您可能會發現您的羣集還受到地理區域和其他因素的影響。

+0

我沒有版本數據,因爲我在表格標題中顯示。我正在尋求一種方法來推斷這些信息。 – Marcelo