您可以爲此使用決策樹迴歸器。使用scikit-learn這樣的工具包,您可以使用DecisionTreeRegressor算法,其功能包括商店ID,日期和時間以及客戶ID,您的目標是花費的金額。
你可以把它變成監督學習問題。這是未經測試的代碼,但它也許可以讓你開始
# Load libraries
import numpy as np
import pylab as pl
from sklearn import datasets
from sklearn.tree import DecisionTreeRegressor
from sklearn import cross_validation
from sklearn import metrics
from sklearn import grid_search
def fit_predict_model(data_import):
"""Find and tune the optimal model. Make a prediction on housing data."""
# Get the features and labels from your data
X, y = data_import.data, data_import.target
# Setup a Decision Tree Regressor
regressor = DecisionTreeRegressor()
parameters = {'max_depth':(4,5,6,7), 'random_state': [1]}
scoring_function = metrics.make_scorer(metrics.mean_absolute_error, greater_is_better=False)
## fit your data to it ##
reg = grid_search.GridSearchCV(estimator = regressor, param_grid = parameters, scoring=scoring_function, cv=10, refit=True)
fitted_data = reg.fit(X, y)
print "Best Parameters: "
print fitted_data.best_params_
# Use the model to predict the output of a particular sample
x = [## input a test sample in this list ##]
y = reg.predict(x)
print "Prediction: " + str(y)
fit_predict_model(##your data in here)
我把這個從項目我工作幾乎直接預測房價這麼有可能是一些不必要的圖書館,沒有做驗證你有沒有線索這種情況會有多準確,但這應該讓你開始。
退房此鏈接:
http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html
你試圖做的不是分類而是迴歸。我建議你對迴歸是什麼進行一些進一步的研究。爲了讓你開始,看看「線性迴歸」。 –
我同意羅賓的觀點,迴歸是模擬連續數值的正常方法。但對於給定的問題,分類方法也是可行的。您可以嘗試的不是模擬確切的支出金額,而是預測一系列價格(例如高,低,中)。爲此,您可以使用RapidMiner中的分箱運算符,然後使用分類運算符。 – David