2015-02-07 14 views
0

我用電影鏡頭數據文件(ml-100k.zip)u.data不變,所以它有列:userID,MovieID和用戶評級。如果我使用SIMILARITY_LOGLIKELIHOOD(LLR),項目評分真的被忽略了嗎?

我用LLR:

Hadoop的JAR C:\ HDP \象夫,0.9.0.2.1.3.0-1981 \核心\目標\ Mahout的核心 - 0.9.0.2.1.3.0-1981在職.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob -s SIMILARITY_LOGLIKELIHOOD --input u.data --output udata_output

當我查看udata_output文件時,我看到推薦的電影ID,然後是推薦分數像:

1226:5.0 和 896:4.798878

的推薦分數似乎從5.0變化到4.x

然而,當我從u.data文件中刪除用戶評級柱和上述予接收的結果像重新運行在同一命令行:

615:1.0

其中ALL推薦分數爲1.0。

2個問題:

1)如果LLR忽略用戶評級和我改變的是是否提供用戶評價的唯一輸入爲什麼推薦分數變化?

2)總體而言,我試圖確定推薦排名,所以我使用LLR。此外,我應該忽略推薦分數,只關注推薦項目的訂單(例如:第一項排名高於第二項)?

在此先感謝。

回答

1

LLR不使用這些優勢。理論是,如果用戶實際上與一個項目交互,那麼這就是所有需要的指示。 LLR將根據稱爲Log Likelihood Ratio的概率計算將該交互與其他用戶的分數相關聯。它確實創造了優勢,但只使用了互動的計數。

答案

  1. 這可能是一個錯誤或者可能是因爲您使用在一種情況下的布爾推薦,並在其他的非布爾。我可能是推薦人試圖通過考慮這些值來提供評分。但是,如果您正在嘗試優化排名
  2. 如果您正在嘗試優化排名,那麼這些都不重要。除非您試圖預測評分,否則這些天幾乎不會發生。相信可接受的排名。

順便說一句,Mahout現在有一個完全新一代的推薦人,基於使用搜索引擎提供推薦和Mahout來計算模型。它比舊的Hadoop版本具有許多優點,包括:

  1. 多模式:它可以在許多不同的項目集上接收許多不同的用戶操作。這使您可以使用用戶的大部分點擊流來推薦。
  2. 實時結果:它在Solr或彈性搜索中具有非常快速的可擴展服務器。
  3. 由於實時性,它可以推薦給新用戶或具有最近歷史記錄的用戶。較早的Hadoop Mahout推薦人只向用戶和培訓數據中的項目推薦 - 他們無法對未用於培訓的歷史記錄做出反應。新推薦人可以使用實時收集的數據,即使是新用戶。

新多峯推薦器在亨利馬烏1.0快照或更大這裏描述:

+0

再次感謝。另外,我沒有意識到我正在使用較早的Hadoop版本。我會研究你建議的新的。 – RandomTask 2015-02-08 07:17:31

+0

查看Mahout 1.0-SNAPSHOT。它與Hadoop或內存版本相比是一個非常不同的架構。 – pferrel 2015-02-09 15:24:35

相關問題