2012-08-31 57 views
1

在mahout中,我設置了一個GenericUserBasedRecommender,現在非常簡單,典型的設置。Mahout推薦人:什麼相對偏好值適合GenericUserBasedRecommender?

在用於項生成一個「偏愛」值,我們有以下5個數據點:

正興趣

  • 用戶轉換關於項目(感興趣的最高可能的符號)
  • 正常像(用戶表示的興趣,例如像按鈕)
  • 間接表達興趣(點擊,光標移動,測量「眼球」)

負利率

  • 冷漠(項目用戶忽略,當其他項目,感興趣的模糊的表達活性)
  • 主動厭惡(大拇指朝下,從我的視圖中刪除項,等等)

在什麼範圍我應該表達這些不同的屬性,讓我們用一個1-100比例來討論?

  • 我應該保持'積極不喜歡'和'冷漠'聚集在一起,例如,分別在1和5,所有喜歡聚集在90-100範圍內?
  • 應該通過更接近中心來「冷漠」和「間接表達利益」嗎?就像20-35範圍內的「冷漠」和60-70範圍內的「間接喜歡」一樣?
  • 「用戶轉換」是否會將縮放比例降低,頭部和尾部比其他縮放更高?如下:'用戶轉換'@ 100,'小人喜歡'@〜65,'不喜歡'聚集在1-10範圍內?
  • 在1-100的範圍內有50個有效的「空」,或者根本等於沒有數據點?

我知道最後的答案在於試驗和錯誤以及我們數據的含義,但就算法而言,我試圖理解在什麼時候我需要提示興趣和對算法正常運行不感興趣。

回答

3

實際範圍並不重要,不適用於此實施。 1-100是好的,0-1是好的,等等。相對值在這裏真的很重要。

這些值是通過簡單的(線性)加權平均值估計的。因此,響應應該是「線性的」。它應該符合一個直覺,即如果行動X的得分比行動Y高2倍,那麼X應該是現實生活中兩倍的指標。

一個體面的地方開始就是簡單地調整它們的頻率。如果點擊轉化率爲2%,則您可以點擊轉化價值的2%。

我會忽略你建議的「無差異」信號。它可能會過於嘈雜,無法使用。