我正在嘗試構建電子商務模型,以預測通過在線營銷渠道(如谷歌購物)獲得的單擊點擊收入。點擊次數是針對產品詳細信息頁面的,因此我的培訓數據包含產品詳細信息,例如:價格,交貨時間,類別,製造商。每一次歷史點擊也帶來了收入。問題是,對於95%以上的點擊量,收入等於零。單擊收入預測模型
歷史數據是這樣的:
click_id | manufacturer | category | delivery_time | price | revenue
1 |man1 | cat1 | 24 | 100 | 0
2 |man1 | cat1 | 24 | 100 | 0
3 |man1 | cat1 | 24 | 100 | 0
4 |man1 | cat1 | 24 | 100 | 120
5 |man2 | cat2 | 48 | 200 | 0
正如你所看到的,這是可能的(普通)塔兩個數據點具有完全相同的特徵和目標變量(收入)的非常不同的值。例如前4個數據點具有相同的特徵,並且僅有4個數據點具有收入。理想情況下,我的模型將在具有相同特徵的測試示例中預測這4次點擊的平均收入(即30)。
我的問題是關於我嘗試應用模型之前的數據表示。我相信我有兩個選擇:
- 將回歸直接應用於點擊數據(如上例),並希望迴歸能夠做正確的事情。在這種情況下,迴歸誤差最終會非常大,因此很難說出模型的實際效果。
- 嘗試將多個數據點(點擊)分組到單個點以避免一些零 - 將具有相同功能的所有數據點進行分組,並將目標(收入)變量計算爲SUM(收入)/ COUNT(點擊次數)。通過這種方法,我的收入仍然有很多零(產品只有幾個點擊),有時候會有數千次點擊只給您一個數據點 - 這看起來不正確。
任何意見如何解決這個問題是非常受歡迎的。
嗨flymeatball,感謝您的答案。 我的問題是更多的迴歸分類(所以我沒有類型1和2的錯誤和類似)。我已經更新了這篇文章,詳細介紹了我除了模型之外的內容(在歷史數據表下面)。 – hakaa
@hakaa編輯根據您的評論 – flyingmeatball
我試過迴歸,它的工作出人意料地好 - 它給予的結果比剛好來自攔截的平均值要好得多。但你是對的,攔截是模型的主要驅動力。 我也嘗試過多項式迴歸方面的「交互項」,並沒有多大幫助。 – hakaa