2016-01-06 54 views
1

我有一套產品。每種產品都是不存在的「父母」的變體。此外,每個產品(我們稱之爲兒童產品)在我們的數據庫中都有自己的單獨分配的價格。這是一個小例子集。逼近價格

父SKU是1000

產品兒童:

1000-TankTop-SM - 14.95 
1000-TankTop-2X - 17.95 
1000-Hoodie-SM - 34.95 
1000-Hooodie-2X - 39.95 

這是問題所在。我們的數據庫以一對一的關係列出每個真實兒童產品的價格(如同正上方)。每個產品都有一個SKU,我可以通過SKU查找每個產品的價格。我有一個網站不支持這種定價方法。定價工作的方式是這樣的。我創建了一個「父」產品。每個父母產品必須有一個基準價格。變化的價格是通過增加或減少美元數量創建的。所以「父母」有兩個屬性集,即產品類型和大小。正數或負數必須與每個屬性相關聯。所以從我上面的例子來看。

尺寸:

SM +- ? 
2X +- ? 

產品類型:

TankTop +- ? 
Hoodie += ? 

我如何決定哪些變量上面應該等於至少接近實際的子產品的價格?這可能沒有任何極端的異常值?

+0

添加了一個可以在Excel中用作概念驗證的工作示例。 – DevNull

回答

2

這聽起來像一個令人沮喪的(即:糟糕的)數據庫系統,因爲實際上不可能創建任意價格。即:

TankTop = + $2.00 
Shirt = + $1.00 
Sweat = + $5.00 

Small = - $1.00 
Medium = + $0.00 
Large = + $3.00 
X-Large = + $5.00 

通過上面的例子,小型襯衫的成本爲10.00美元,同時中型襯衫的成本爲10.50美元是不可能的。

因此,每個產品的定價總和爲:BASE_SKU_PRICE + SIZE_MODIFIER + STYLE_MODIFIER。這意味着您無法爲每個獨特商品分配任意價格值,因此您需要使用迴歸模型。

如果您想重新調整項目的大量表格的價格,最小化異常值的最簡單方法將是線性最小均方誤差近似(LMS)的多變量變化,其中is just another type of multivariate linear regression approach

這將讓你每一個獨特的產品型號(即:SKU)的函數關係:

y = a + bX_1 + cX_2 

如果你想有一個非常整潔的方法來處理這對於生產數據庫系統,你將是最好的關閉只需使用MATLAB或SPSS創建數據庫表,您可以指定置信區間和其他參數以幫助優化近似值。

最後,I found an example online which you could try out in OpenOffice Calc or Microsoft Excel。這將給你一個工作的算法方法,而不是你必須導出解析形式方程並從它們生成代碼。它甚至可能足以解決您的問題,而無需打破MATLAB或SPSS。