Mahout日誌似然相似性度量行爲

我試圖解決的問題是爲我的數據找到正確的相似性度量，rescorer啓發式和過濾級別。（我使用'過濾級別'來表示用戶或項目必須與它關聯以將其納入生產數據庫的評分數量）。Mahout日誌似然相似性度量行爲

設置
我正在使用mahout的味道協同過濾框架。我的數據以三元組形式出現，其中項目的評分包含在集合{1,2,3,4,5}中。我在logLikelihood相似性度量標準之上使用了一個基於itemBased的推薦器。我篩選出生產數據集中少於20個項目的用戶。 RMSE看起來不錯（1.17ish），並且沒有數據上限，但有一個奇怪的行爲是不希望的，並且出現類似錯誤的情況。

問題

First Call調查 - 生成與來自用戶的信息 '自頂項目' 列表中。要做到這一點我用，我所說的，一個中心總：

for i in items 
for r in i's ratings 
    sum += r - center 

where center = (5+1)/2 , if you allow ratings in the scale of 1 to 5 for example

我用一個居中的總和，而不是平均收視率主要產生頂部的項目列表，因爲我想項目已評級的數量收到的因素納入排名。

第二個電話 - 我要求在第一個電話中返回的每個頂級項目有9個類似的項目。對於我要求的類似物品的每個頂級物品，返回的9個類似物品中有7個是相同的（與爲其他頂級物品返回的類似物品集合相同）！

是時候嘗試一些rescoring？也許將兩個遊戲的相似度乘以（共同評價項目的數量）/ x，其中x被調整（大約50或者開頭）。

在此先感謝小夥子們

來源

2011-08-16 nicolai.tesela

您所要求的50項類似的一些項目X.然後你看看爲每個50的9個相似的項目，其中大部分是相同的。爲什麼這是令人驚訝的？類似的項目應該與其他項目相似。

什麼是「居中」總和？如果每次計算總和中的項目數量大致相似，則按總和而不是平均數排序仍會給出相對類似的輸出。

你想解決什麼問題？因爲所有這些似乎都與你所描述的推薦系統沒有關係。對數似然相似性甚至不是基於評級。

來源

2011-08-16 08:14:38

感謝您的快速回復肖恩！我試圖解決的問題是爲我的數據找到正確的相似性度量和rescorer啓發式。對不起，我更新了我的問題，並描述了我所謂的「居中」總和。關於Log-Likelihood您的反饋非常感謝。我轉而使用LL，因爲GenericItemRecommender在與LL相關的Pearson中使用時必須限制較少的值（因爲允許負權重）。也許我應該改回使用皮爾森，這次實施某種形式的rescorer？ –

您的第一個過程主要是構建最受評價項目的列表。你的數據集是小的還是稀疏的？如果是這樣，我可以想象，只有最受評價的項目往往與其他項目具有任何明確的相似性，因爲稀疏。這可以解釋爲什麼你一遍又一遍地看到相同的物品。這仍然沒有使用推薦者 - 除非你只使用mostSimilarItems（）。 –

感謝您的幫助肖恩。結果問題是我正在用遊戲ID排序相似的物品，而不是相似度值！ Wups。另外，由於我有評級數據，從Log-likelihood轉換到Pearson是一個很好的電話，我認爲（儘管封蓋仍然有點讓我害怕）。感謝您的協助肖恩！ –

Mahout日誌似然相似性度量行爲

回答

相關問題