我正在使用先前購買的數據預測客戶今日購買概率的零售商店的模型。爲了簡便起見,說,我們有3個大類產品(A,B,C),我想用在Q1,Q2和Q3 2017年客戶的購買歷史來預測的概率在2017年第四季度到如何預處理交易數據以預測購買概率?
買我應該如何構建我的指標文件?
我嘗試:
我想預測的變量是紅色的細胞生產集。
請注意以下事項:
- 由於我的客戶羣,是這兩年一樣,我使用的客戶如何行事去年預測他們會怎麼做照片在今年年底(這是未知的)。
- 數據由三個月分離,同事sugested這是不正確的,因爲我無意中每一個在4賦予更大的權重指標分解,當他們應該只是每個類別之一。
備選:
我sugested另一個形式給出了使用每個類別的兩個指標:Ex.'bought_in_category_A」和 'days_since_bought_A'。對我而言,這看起來更簡單,但是模型只能預測IF如果客戶購買Y,而不是他們購買Y的時間。另外,如果客戶從未購買A,會發生什麼?我不能使用0,因爲這意味着從未買過的顧客離前幾天剛剛購買的顧客更近。
問題:
- 這是結構確定,還是會構造以另一種方式的數據?
- 在這種情況下可以使用去年的信息嗎?
- 它是確定以「分裂」一個cateogorical變量分成幾個二元變量?這是否會影響賦予該變量的重要性?
謝謝您的回答,我有所有的信息:產品atributes(顏色,大小等),人口統計信息(年齡,性別,位置),等等。自2013年以來。這是一個過於簡單化,使其可以理解。我更關心季節性如何影響我組織信息的方式,但您確實回答了我的問題,指出我可以將這些信息分開。 – syrup